本次以51Job上在东莞地区爬取的以Java为关键词的招聘数据
包括salary company time job_name address字段
当我把招聘网站上的数据爬下来的时候,内心是很开心的
爬下来的原始数据
但是!
What?!
这是什么数据?
而且还不止一条!!!
待清洗数据
待清洗数据
第一次数据清洗
根据上述截图可以发现,脏数据都包含了xx元/小时以及xx元/天。一般我们IT行业很少以小时或者以天计算工资(如果担心清洗了正确的数据,可以后面再做检验)
思路
首先寻找合适的Pandas函数
清理数据相关的函数有
drop()
duplicated()
drop_duplicates()
dropna()
我们并不是要去重, 而是要