数据清洗:我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本次将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。
问题:我们拿到的数据经常会有很多缺失值,比如我们可以看到Cabin列存在NaN,那其他列还有没有缺失值,这些缺失值要怎么处理呢
找出缺失值的办法:
法一:
df.info()
法二:
df.isnull().sum()
对缺失值进行处理:
df.dropna().head(3)
查看数据中的重复值:
df[df.duplicated()]
对重复值进行处理:
df.drop_duplicates().head()
将前面清洗的数据保存为csv格式
df.to_csv('test_clear.csv')
对数据进行分箱离散化处理
#将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
df['AgeBand'] = pd.cut(df['Age'], 5,labels = ['1','2','3','4','5'])
df.head()
对文本变量进行转换
#查看类别文本变量名及种类
#方法一: value_counts
df['Sex'].value_counts()