Python数据预处理实验：实验三使用pandas进行数据清洗

以儒雅示人

已于 2024-01-23 16:53:09 修改

阅读量897

点赞数 8

分类专栏： Python数据预处理文章标签： pandas python matplotlib numpy

于 2024-01-23 16:47:38 首次发布

本文链接：https://blog.csdn.net/m0_68526732/article/details/135775067

版权

Python数据预处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

实验三使用pandas进行数据清洗

一、实验目的

练习使用pands完成缺失值数据处理、重复值数据处理、异常值数据处理和格式不一致数据处理。

二、实验内容

根据下面内容完成以下任务：

(1) 任务一：网上招聘数据缺失值处理

(2) 任务二：网上招聘数据重复值处理

(3) 任务三：网上招聘数据异常值处理

(4) 任务四：网上招聘数据格式不一致数据的处理

三、程序代码

任务一：
jobs.dropna(inplace=True)
jobs.to_csv('Python开发职位1.csv',index=False)

任务二：
import pandas as pd

jobs=pd.read_csv('Python开发职位1.csv')
jobs.duplicated()
jobs.drop_duplicates(inplace=True)
jobs.duplicated()
jobs.to_csv('Python开发职位2.csv',index=False)

任务三：
import pandas as pd
jobs=pd.read_csv('Python开发职位2.csv')
jobs['薪资']
for i in range(len(jobs['薪资'])):
    jobs.loc[i,'薪资']=jobs['薪资'][i].split('-')[0]
    jobs.loc[i,'薪资']=float(jobs.loc[i,'薪资'])*1000
jobs.rename(columns={'薪资':'最低月薪'},inplace=True)
jobs['最低月薪']

import matplotlib.pyplot as plt
plt.boxplot(jobs['最低月薪'])
jobs['最低月薪'][3]=jobs['最低月薪'][3]*10
jobs.sort_values(by='最低月薪',ascending=False)
jobs.to_csv('Python开发职位3',index=False)

任务四：
import pandas as pd

jobs=pd.read_csv('Python开发职位3.csv',encoding="utf_8_sig")

city=[]

for i in range(len(jobs['地区'])):
    temp=jobs['地区'][i].split('-')
    jobs.loc[i,'地区']=temp[1]
    if'市区' in temp[0]:
        city.append(temp[0])
    else:
        city.append(temp[0]+'市')
jobs.insert(2,'城市',value=city)
jobs
jobs['发布日期']=pd.to_datetime(jobs['发布日期'])
jobs