数据处理（上次爬取51job的数据中有错误数据）——拆分错误数据

最新推荐文章于 2020-07-01 01:03:49 发布

坎沛尔麦斯达

最新推荐文章于 2020-07-01 01:03:49 发布

阅读量413

点赞数

分类专栏： python Excel 文章标签： python处理Excel

本文链接：https://blog.csdn.net/qq_42533103/article/details/103312924

版权

本文介绍了如何处理51job爬取数据中的错误，特别是那些因缺少学历要求而导致的问题。通过Python使用pandas库，筛选出包含'人'字符的错误数据，并将其保存为新的Excel文件。同时，提出了修复这些错误数据的方法，即将'学历要求'改为'招聘人数'，并设置默认值。

摘要由CSDN通过智能技术生成

目标

因为上次爬取51job的职位信息中有错误数据，需要将错误数据从中导出。如下图：
51job职位信息
出现图中数据的原因是：该职位没有学历要求导致，
所以需要将这些错误数据拆分出来。

使用pandas处理数据:

import pandas as pd

因为我存储数据的csv文件与我py文件同级，所以可以直接调用

filepath = '51job数据分析.csv'
# 读取csv文件
data = pd.read_csv(filepath, encoding='gbk', header=0, usecols=range(0, 10))

参数说明：
filepath是我的文件名，encoding是编码格式，header是用哪行作为表头，usecoles是需要读取的列数，全部读取可以省略。

然后查看‘学历要求’列中不同的值有多少种：

print(data['学历要求'].

关注

专栏目录