Python数据清洗实战案例–拉勾招聘数据清洗
(本篇博客主要介绍个人对一份数据的清洗代码和清洗效果)
主要涉及应用的库是numpy、pandas、matplotlib,话不多说,直接上代码
#全部行都能输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
#导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('seaborn')
plt.rcParams['axes.unicode_minus']=False #设置显示中文后,负号显示受影响。解决坐标轴上乱码问题
plt.rcParams['font.family'] = ['Arial Unicode MS'] #mac解决中文显示问题
# 首先导入数据
df = pd.read_csv(r"C:\Users\Administrator\Desktop\1201\数据清洗\第五天\拉钩上\lagou1.csv")
df.head()
观察一下原始数据的状态
# 查看数据的形状和各列信息
df.shape
df.info()
# 提取出公司名称缺失的行. 并删除该行
df[df.公司名称.isnull()]
缺失值处理
# 删除这一列
df.drop(index=872, inplace=True)
# 提取出城市中有缺失的行
df[df.城市.isnull()]
# 根据公司地点信息将城市中有缺失的行填充成武汉
df['城市'] = df.城市.fillna('武汉')
接下来查看城市的类别和计数, 并用直方图画出, 随着城市变化, 职位数目的变化, 降序
a = df.城市.value_counts()
a