清洗数据

最新推荐文章于 2024-05-14 17:20:24 发布

范之度

最新推荐文章于 2024-05-14 17:20:24 发布

阅读量519

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fan13938409755/article/details/104310771

版权

python 专栏收录该内容

174 篇文章 7 订阅

订阅专栏

参考文献https://blog.csdn.net/binsun1102/article/details/80227779

去除重复数据，使用excel选项卡中的数据=》删除重复选项=》

特殊数据结构的拆分（1）比如上图的companyLabelList中的数据结构

（2）比如上述的薪水2K-5K，是需要从文本类型转换成数值类型，最好拆分成两项数据，最低数值和最高数值。

（2）种类型的数据应该怎么拆解？

首先是底薪

使用提取函数left和find

LEFT(P2,FIND("k",P2,1)-1) 结合思路提取一个单元格中的字符串中第一个“k“字母以前的数据。FIND("k",P2,1)-1find的函数是查询出k的位置，k的位置-1就是k前数字的位置，最终得到了一个第一个k之前数字所占的位数。

其次是最高薪水

使用mind，search，len函数=MID(P2,SEARCH("-",P2,1)+1,LEN(P2)-SEARCH("-",P2,1)-1)

警告：最高薪水的函数使用以后也出现#value！，是因为有些公司写薪水的时候，只写了5k以上

使用的函数参考

[1]LEFT()，

用途：1）LEFT函数用于从一个文本字符串的第一个字符开始返回指定个数的字符。2）left函数用来对单元格内容进行截取。从左边第一个字符开始截取，截取指定的长度。

语法：LEFT( string, n )

参数：string ：必要参数。字符串表达式其中最左边的那些字符将被返回。如果 string 包含 Null，将返回 Null。

n ：必要参数；为 Variant (Long)。数值表达式，指出将返回多少个字符。如果为 0，返回零长度字符串 ("")。如果大于或等于 string 的字符数，则返回整个字符串。

例子：MyStr = Left(AnyString, 7) '返回 "Hello W"。

[2]

FIND(find_text,within_text,start_num)

Find_text 是要查找的字符串。

Within_text 是包含要查找关键字的单元格。就是说要在这个单元格内查找关键字

Start_num 指定开始进行查找的字符数。比如Start_num为1，则从单元格内第一个字符开始查找关键字。如果忽略 start_num，则假设其为 1。

出现问题：使用函数，有的行出现了#VALUE！结果，找出原因：筛选的工资单元格，有的是大写的K，而不是小写的k.所以出现了错误

解决措施，用小写k把大写K替换了或使用search函数来替换find函数（excel这个是功能是真的nb），因为search函数是模糊查询。

[3]mind函数

MID(text, start_num, num_chars)

text是需要查找的字符串文本，可以手动输入，也可以引用单元格。

start_num是查找字符串文本中的起始位置

num_chars是所从起始位置开始的提取字符串个数，num_chars不可为负数，如大于文本长度，则提取剩余文本。

（3）单元格中的数据分列

（1）把一个列的数据分成四列，选择数据=》分列=》

（2）去除每列多余的数据符号‘ [ ] '。

=》开始=》查找和替换

（4）关键字段中的逻辑清洗。

在搜索关键职位的时候，因为自主性比较大，职位名称很不统一，很多是hr自己填写的，因此要筛选。首先要确定职位次数比较多的职位，这个时候要用数据透视表。

第一步：对关键字段引入数据透视表来看某列字段的关键字重复数。

（2）计数关键字段出现的次数

筛选出现次数多的数据项目，分为0和1，然后数据筛选，只呈1的数量，也就是数据大于0的次数。

最终呈现出来主要的职位名称，根据逻辑筛选出关键字段，“”数据分析","数据运营","分析师“，只要包含这三个字，就代表数据相关。具体操作如下：

筛选1字段，0字段就删除。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。