利用pandas对excel文件进行初步清洗

最新推荐文章于 2024-06-18 16:00:24 发布

qq_45724120

最新推荐文章于 2024-06-18 16:00:24 发布

阅读量1.2k

点赞数 1

分类专栏： python 文章标签：大数据 pandas

本文链接：https://blog.csdn.net/qq_45724120/article/details/109657688

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.导库
import numpy as np
import pandas as pd
import os

import numpy as npimport pandas as pdimport os

2.读文件
job_data=pd.read_excel(‘原始数据.xls’)
在这里插入图片描述

3.查看缺失值并进行处理
#查看缺失值
job_data.isnull().sum()
在这里插入图片描述

城市的缺失值可以通过公司全名来获取到以填补缺失值
data0=job_data[job_data[‘城市’].isnull()]
a=job_data[‘城市’].isnull()
job_data.loc[a,‘城市’]=job_data[job_data[‘城市’].isnull()][‘公司全名’].str[:2]
在这里插入图片描述

4.数据不统一
#统一分隔符
#处理公司大小字段
job_data[‘公司大小’]=job_data[‘公司大小’].str.replace(‘人’,’ ‘).str.replace(‘以上’,’ ‘).str.replace(‘少于’,’ ')

#统一职位所属分隔符
job_data['职位所属 ']=job_data[‘职位所属 ‘].str.replace(‘与’,’/’)

#统一职位福利分隔符
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’,’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’+’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’-’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(‘与’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’、’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’;’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’.’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’，’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’ ‘,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’；’,’/’)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’【’,’ ‘)
job_data[‘职位福利’]=job_data[‘职位福利’].str.replace(’】’,’ ')

统一公司所属领域分隔符

job_data[‘公司所属领域 ‘]=job_data[‘公司所属领域 ‘].str.replace(’,’,’/’)
job_data[‘公司所属领域 ‘]=job_data[‘公司所属领域 ‘].str.replace(’、’,’/’)

#处理公司所在商区列
job_data[‘公司所在商区’]=job_data[‘公司所在商区’].str.replace(’[’,’’).str.replace(’]’,’’)
job_data[‘公司所在商区’]=job_data[‘公司所在商区’].str.replace("’", ‘’)

#薪水把单位去掉
job_data[‘薪水’]=job_data[‘薪水’].str.replace(‘k’,‘000’)
job_data
在这里插入图片描述

5.分列

处理职位所属分列

d=job_data[‘职位所属 ‘].str.split(’/’,expand=True)
d

job_data[‘职位所属1’]=d[0]
job_data[‘职位所属2’]=d[1]
job_data[‘职位所属3’]=d[2]

#公司商区分列
f=job_data[‘职位福利’].str.split(’/’,expand=True)
job_data[‘职位福利1’]=f[0]
job_data[‘职位福利2’]=f[1]
job_data[‘职位福利3’]=f[2]
job_data[‘职位福利4’]=f[3]
job_data[‘职位福利5’]=f[4]
job_data[‘职位福利6’]=f[5]

#公司大小分列
b=job_data[‘公司大小’].str.split(’-’,expand=True)
job_data[‘最少人数’]=b[0]
job_data[‘最多人数’]=b[1]

#薪水分列
c=job_data[‘薪水’].str.split(’-’,expand=True)
job_data[‘最少薪水’]=c[0]
job_data[‘最多薪水’]=c[1]

#公司商区分列
e=job_data[‘公司所在商区’].str.split(’,’,expand=True)
job_data[‘公司所在商区1’]=e[0]
job_data[‘公司所在商区2’]=e[1]
job_data[‘公司所在商区3’]=e[2]
job_data[‘公司所在商区4’]=e[3]
job_data[‘公司所在商区5’]=e[4]
job_data[‘公司所在商区6’]=e[5]

#处理公司所属领域
f=job_data[‘公司所属领域 ‘].str.split(’/’,expand=True)
f
job_data[‘公司所属领域1’]=e[0]
job_data[‘公司所属领域1’]=e[1]
在这里插入图片描述

上图不完整，过会存excel文件查看
6.去除重复值
job_data.drop_duplicates([‘职位ID’],inplace=True)
job_data.drop_duplicates([‘公司ID’],inplace=True)