动手学数据分析 Task02:数据清洗及特征处理

动手学数据分析

本次跟随Datawhale组织的动手学数据分析组队学习,对数据分析继续加强学习,希望能有所收获。Datawhale是一个很好的开源组织,会组织很多优质、开源的系列学习。

附上本次组队学习的计划和教程资料,如果链接失效,可点击这里前往Datawhale官网自行查找,即使没有当时加入组队学习,有兴趣的话从现在开始学习也不晚哦~

由于此次是需要有一些pandas基础,之前有做过pandas的脑图总结,有需要的同学可以点这里前往获取。

现在学习喜欢用脑图的方式,知识点清晰明了,易于查找和复习,希望也可以帮助大家梳理知识脉络,同时欢迎补充。

Task02:数据清洗及特征处理

在这里插入图片描述
链接:https://pan.baidu.com/s/1vgHMknIps9e0oiLfyUKG0Q
提取码:d8cd

一、重点与思考

筛选了一些比较重要的操作以及一些思考的回答:

【思考1】dropna和fillna有哪些参数,分别如何使用呢?

  • dropna:
  1. axis{0 or ‘index’, 1 or ‘columns’}, default 0:删除包含缺失值的行(列)
  2. how{‘any’, ‘all’}, default ‘any’:所有都是na才删除,还是只要有一个na就删除
  3. thresh int, optional :删除到至少有多少na剩余
  4. subset array-like, optional:针对某几列删除删除缺失值
  5. inplace bool, default False:是否原地删除
  • fillna:
  1. value scalar, dict, Series, or DataFrame:缺失值的填充值
  2. method{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None:填充方法,前两个根据后面一个有效值填充,‘pad’、‘ffill’根据前一个有效值填充。
  3. axis{0 or ‘index’, 1 or ‘columns’}:延行(列)方向填充。
  4. inplace bool, default False:是否原地删除
  5. limit int, default None:如果指定了方法,则这是要向前/向后填充的连续NaN值的最大数目。换句话说,如果与超过这个数目的连续的Nans有一个差距,它将只会被部分填补。如果未指定方法,则这是将填充NAN的整个轴上的最大条目数。如果不是零,则必须大于0。
  6. downcast dict, default is None:填充缺失值后是否改变某列的Dtype,可以看下面示例。
    在这里插入图片描述

分箱操作是什么?

找到一篇写的比较清楚地blog,点击这里

将文本变量Sex, Cabin ,Embarked用数值变量12345表示
在这里插入图片描述
在这里插入图片描述

将文本变量Sex, Cabin, Embarked用one-hot编码表示
在这里插入图片描述
从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

对正则还是不太熟悉。。。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值