【无标题】

一、缺失值观察与处理

主要的结构就是 df.isnull().sum()
在这里插入图片描述
最后出现的结果就是显示各个属性值下对应的数据个数

二、对缺失值进行处理

基本结构就是 df[df[‘属性’].isnull()]=赋值
在这里插入图片描述

运行的结果就是在缺失值的地方由NaN变为0

三、重复值的观察与处理

基本结构为:df[f.duplicates()]
在这里插入图片描述
最后显示出来的是重复数据

四、对重复数据进行处理

在这里插入图片描述
删除重复的数据

五、特征值的观察与处理

基本原理就是进行封箱操作,然后对数据进行相应的处理。
这里有用到cut和qcut函数。我的理解就是根据对应的特征值下的数据按照相应的分类顺序,最后对这类数据赋予值并存在新的特征值下用来区分。
例如把依据变量Age平均分成5个年龄段,并用变量1,2,3,4,5表示出来:
在这里插入图片描述
最后就是按照相应的分类将相应的数据存在特征AgeBand下面。
后面的划分类似,就是qcut是按照变量的个数等分的划分,cut是按照变量的值划分,前提是会进行被排序。

六、对文本变量进行转换以及简单的转换为one-hot编码

查看文本变量名及种类
在这里插入图片描述
运行的结果就是显示各个数据及种类
在这里插入图片描述
这是法二,不同的是显示的是一个列表。
接下来是替代:用到了replace函数和map函数。区别就是前者的参数是列表,而后者的参数是字典。

最后,简单的one-hot转换

在这里插入图片描述
最后可以将数据进行相应的拆分最终形成one-hot编码。

七、总结

在本次学习中,我知道了数据的清洗及特征值处理,进行了缺失值的观察,即df.isnull().sum(),及对缺失值进行处理,对缺失的地方赋值其他的值,然后学习了重复值的观察与处理,接着是特征值的观察与处理,最后了解了一些one-hot的知识但不是特别的精通,还需要自己后期取多多学习进行补充。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值