pandas数据清洗常用操作总结（二）

最新推荐文章于 2022-04-21 18:31:57 发布

潘旭阳

最新推荐文章于 2022-04-21 18:31:57 发布

阅读量1k

点赞数

分类专栏： pandas 文章标签：数据清洗独热编码离散数据映射

本文链接：https://blog.csdn.net/Joseph__Lagrange/article/details/90519459

版权

pandas 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

连续数值数据和有意义的离散数据，才能够送入到模型进行训练，对于缺失值、字符串数据和离散数据必须做处理

1 缺失值检测和处理

（1）检测
df.info() 或 df.isnull()
数据量比较大：用np.sum(df.isnull().any()) 和 np.sum(df.isnull().all())
（2）处理
a.删除法；
DataFrame.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
axis=0 ：按行删除； axis=1，按列删除
b.替补法：均值、众数、中位数；
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
c.插补法

2 离散数据处理

主要是独热编码和映射处理

(1) 离散特征的取值没有大小意义

比如 book ：[Chinese, math, history]，那么就使用独热编码
——如果是字符串数据，比如 book ：[Chinese, math, history]
直接独热编码：pandas.get_dummies
——如果是数字数据
将其转化为array数据结构，再调用sklearn.preprocessing.OneHotEncoder() 对其进行编码

(2) 离散特征的取值有大小意义

比如size：[X,XL,XXL], 那么就使用数值的映射{X:1,XL:2,XXL:3}
——如果是字符串数据，比如size：[X,XL,XXL]
size_mapping ={‘X’:1,‘XL’:2,‘XXL’:3}
df[‘size’] = df[‘size’].map(size_mapping )
——如果是数字数据，比如size：[1,2,3]
不用处理，直接使用就可以了