参考文献https://blog.csdn.net/binsun1102/article/details/80227779
去除重复数据,使用excel选项卡中的数据=》删除重复选项=》
特殊数据结构的拆分(1)比如上图的companyLabelList中的数据结构
(2)比如上述的薪水2K-5K,是需要从文本类型转换成数值类型,最好拆分成两项数据,最低数值和最高数值。
(2)种类型的数据应该怎么拆解?
首先是底薪
使用提取函数left和find
LEFT(P2,FIND("k",P2,1)-1) 结合思路提取一个单元格中的字符串中第一个“k“字母以前的数据。FIND("k",P2,1)-1find的函数是查询出k的位置,k的位置-1就是k前数字的位置,最终得到了一个第一个k之前数字所占的位数。
其次是最高薪水
使用mind,search,len函数=MID(P2,SEARCH("-",P2,1)+1,LEN(P2)-SEARCH("-",P2,1)-1)
警告:最高薪水的函数使用以后也出现#value!,是因为有些公司写薪水的时候,只写了5k以上
使用的函数参考
[1]LEFT(),
用途:1)LEFT函数用于从一个文本字符串的第一个字符开始返回指定个数的字符。2)left函数用来对单元格内容进行截取。从左边第一个字符开始截取,截取指定的长度。
语法:LEFT( string, n )
参数:string :必要参数。字符串表达式其中最左边的那些字符将被返回。如果 string 包含 Null,将返回 Null。
n :必要参数;为 Variant (Long)。数值表达式,指出将返回多少个字符。如果为 0,返回零长度字符串 ("")。如果大于或等于 string 的字符数,则返回整个字符串。
例子:MyStr = Left(AnyString, 7) '返回 "Hello W"。
[2]
FIND(find_text,within_text,start_num)
Find_text 是要查找的字符串。
Within_text 是包含要查找关键字的单元格。就是说要在这个单元格内查找关键字
Start_num 指定开始进行查找的字符数。比如Start_num为1,则从单元格内第一个字符开始查找关键字。如果忽略 start_num,则假设其为 1。
出现问题:使用函数,有的行出现了#VALUE!结果,找出原因:筛选的工资单元格,有的是大写的K,而不是小写的k.所以出现了错误
解决措施,用小写k把大写K替换了或使用search函数来替换find函数(excel这个是功能是真的nb),因为search函数是模糊查询。
[3]mind函数
MID(text, start_num, num_chars)
text是需要查找的字符串文本,可以手动输入,也可以引用单元格。
start_num是查找字符串文本中的起始位置
num_chars是所从起始位置开始的提取字符串个数,num_chars不可为负数,如大于文本长度,则提取剩余文本。
(3)单元格中的数据分列
(1)把一个列的数据分成四列,选择数据=》分列=》
(2)去除每列多余的数据符号‘ [ ] '。
=》开始=》查找和替换
(4)关键字段中的逻辑清洗。
在搜索关键职位的时候,因为自主性比较大,职位名称很不统一,很多是hr自己填写的,因此要筛选。首先要确定职位次数比较多的职位,这个时候要用数据透视表。
第一步:对关键字段引入数据透视表来看某列字段的关键字重复数。
(2)计数关键字段出现的次数
筛选出现次数多的数据项目,分为0和1,然后数据筛选,只呈1的数量,也就是数据大于0的次数。
最终呈现出来主要的职位名称,根据逻辑筛选出关键字段,“”数据分析","数据运营","分析师“,只要包含这三个字,就代表数据相关。具体操作如下:
筛选1字段,0字段就删除。