背景:现用Python爬取了某求职网站上关于数据分析的数据,我希望知道数据分析是个怎样的职位?它的工资和薪酬是多少?它有哪些特点,需要掌握哪些能力?哪些公司会招聘这样一个岗位?
1、数据有无缺失值?
数据的缺失值很大程度上影响分析结果。引起缺失的原因很多,例如技术原因,爬虫没有完全抓去,例如本身的缺失,该岗位的HR没有填写。
如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。
2、数据是否一致化?
一致化指的是数据是否有统一的标准或命名。
3、数据是否有脏数据
脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。
使用Excel的删除重复项功能,快速定位是否有重复数据。
4、数据标准结构
数据标准结构,就是将特殊结构的数据进行转换和规整。
表格中,companyLableList就是以数组形式保存(JSON中的数组),我们后续得将这类格式拆分开来
![这里写图片描述](//img-
blog.csdn.net/20180322144840149?watermark/2/text/Ly9ibG9nLmNzZG4ubmV0L0cwOTA5MDk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
薪水