- 开始之前,导入numpy、pandas包和数据
#加载所需的库
import numpy as np
import pandas as pd
- 数据清洗简述
目的:将数据清洗成可以分析或建模的样子
清洗对象:缺失值、重复值、异常值、数据转换等等
- 缺失值观察与处理
任务一:观察缺失值
任务二:对缺失值进行处理
#观察缺失值
#方法一
df.info()
#方法二
df.isnull().sum()
#处理缺失值:
#drop掉
df.dropna()
#填充
df.fillna(0)
#附上特定的值
df[df['Age']==None]=0
- 重复值观察与处理
任务一:请查看数据中的重复值