目标
因为上次爬取51job的职位信息中有错误数据,需要将错误数据从中导出。如下图:
出现图中数据的原因是:该职位没有学历要求导致,
所以需要将这些错误数据拆分出来。
代码
使用pandas处理数据:
import pandas as pd
因为我存储数据的csv文件与我py文件同级,所以可以直接调用
filepath = '51job数据分析.csv'
# 读取csv文件
data = pd.read_csv(filepath, encoding='gbk', header=0, usecols=range(0, 10))
参数说明:
filepath是我的文件名,encoding是编码格式,header是用哪行作为表头,usecoles是需要读取的列数,全部读取可以省略。
然后查看‘学历要求’列中不同的值有多少种:
print(data['学历要求'].