DataWhale-动手学数据分析-Task02

最新推荐文章于 2022-03-25 00:55:13 发布

小创01

最新推荐文章于 2022-03-25 00:55:13 发布

阅读量88

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41006393/article/details/118004394

版权

昨天忘记贴上这门课程的链接了，今天补上 https://github.com/datawhalechina/hands-on-data-analysis

第二次任务主要是关于数据清洗和特征处理的，记得之前上课老师说做项目基本要花过半的时间在数据上面，想必这两块都十分重要。

一、数据清洗

1）缺失值查看

找出数据中缺失值的方法常见的有np.isnan()和pd.isnull()，它们的输入可以是DataFrame格式的，但要注意np.isnan()只支持对数值型对象进行判断，pd.isnull()则没有这个限制。DataFrame本身也有isnull方法，如df.isnull()。此外，要注意np.nan是一个特殊的存在，不能直接用"x == np.nan"来判断。

type(np.nan)
>>> float
np.nan == np.nan
>>> False

上面的方法加上.sum()或者df.info()可以查看缺失值数量。

2）缺失值处理

这篇文章中有比较详细的介绍 https://zhuanlan.zhihu.com/p/40775756

总的来说，大概分为剔除、用固定值替换、拟合或是不处理几种。

剔除常用df.dropna(how='any', inplace=False)，any指一条数据只要有一个NaN就删除。

替换常用df.fillna(value)，以value替换df中所有的NaN。

3）重复值查看：常用df.duplicated()

4）重复值处理：一般直接删掉df.drop_duplicates()

5）其他

也可以结合数据实际的物理意义和应用场景做进一步的数据清洗，方法有如异常值检测、剔除离群点等。

二、特征处理

特征大概可以分为两类：数值型特征和字符型特征。数值型特征又可分为连续型数值（如身高、体重）和离散型数值（如年龄、类别），字符型特征常转换为数值后处理。值得注意的是，数值变量可分为nominal（定类）、ordinal（定序）、interval（定距）和ratio（定比）四种，具体可参考https://blog.csdn.net/atytjmt/article/details/88813377。建立模型时可特殊处理，如转换为哑变量（采用One-hot编码）。

1）分箱操作

可以将连续变量离散化，转换为标签。如

df['AgeBand'] = pd.cut(df['Age'],5,labels=[1,2,3,4,5])

将Age这一特征排序后平均划分为5个年龄段，分别用1-5作为类别变量。

df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = [1,2,3,4,5])

将特征Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，分别用1-5作为类别变量。

df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])

将特征Age按比例10% 30% 50 70% 90%划分为五个年龄段，分别用1-5作为类别变量。

2）将字符型变量转换为离散类别变量

常用三种方法：df.replace()、df.map()、sklearn.preprocessing.LabelEncoder()

One-hot编码：用pd.get_dummies()比较方便

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DataWhale-动手学数据分析-Task02

第二次任务主要是关于数据清洗和特征处理的，记得之前上课老师说做项目基本要花过半的时间在数据上面，想必这两块都十分重要。一缺失值处理找出数据中缺失值的方法
复制链接

扫一扫

小创01 CSDN认证博客专家 CSDN认证企业博客

码龄7年

2: 原创

150万+: 周排名

114万+: 总排名

284: 访问

: 等级

24: 积分

0: 粉丝

0: 获赞

3: 评论

0: 收藏

私信

关注

热门文章

最新评论

DataWhale-动手学数据分析-Task01
Cdf（人名）: 写的不错，感谢分享,期待大佬回访！
DataWhale-动手学数据分析-Task01
大家一起学编程（python）: 作者肯定是那个别人家的孩子
DataWhale-动手学数据分析-Task01
彼方: 三连支持一下博主，大佬有兴趣也可以看下我的博客，说不定也会有所有收获哦~

最新文章

DataWhale-动手学数据分析-Task01

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。