【数据挖掘】Task02笔记汇总

闷闷跑圈圈

于 2020-03-24 17:36:12 发布

阅读量91

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30906219/article/details/105076688

版权

通过EDA的流程进一步了解了Pandas，Seaborn，Missingno的用法。

1. 通过看头和尾来大致了解数据情况，不放心的话执行一步看一步

2. 关于sort_values(inplace=False)可以参考：

https://blog.csdn.net/MsSpark/article/details/83154128

3. 然后要看看缺失值情况如何，个数小的时候选择填充，lgb等数模型可以空着，树会自己优化的，NAN如果过多可以考虑删掉。

4. missingno是一个可视化缺失值的库，白线越多，代表缺失值越多

5. pandas里的value_counts()计算每个不同值的个数

6. 某个类别特征严重倾斜的时候可以删掉，深挖的意义不太大

7. sns.distplot(y, kde=False, fit=st.johnsonsu) 用seaborn库来画y，用无界约翰逊分布来拟合

8. 看了偏度和峰度之后，复习了一下常见的统计方法：https://blog.csdn.net/luckarecs/article/details/71627893

9. https://www.cnblogs.com/wyy1480/p/10474046.html matplotlib.pyplot.hist 是histogram（直方图）的缩写

10. 对数变换之后，分布会变得均匀，这是预测问题常用的小技巧。

11. 有些数据自带数值特征标签和类型特征标签，但我们这个task里面则是要人为设定

12. 关于unique()和nunique():

unique()是以数组形式（numpy.ndarray）返回列的所有唯一值（特征的所有唯一值）
nunique() 即返回的是唯一值的个数

13. {:15}——位置映射，相当于{0:15}，对应于format中的''，15为字符宽度 (字符串格式化方法之一)

14. pandas的melt方法：https://blog.csdn.net/mingkoukou/article/details/82867218

15. 此处是多变量之间的关系可视化，可视化更多学习可参考很不错的文章 https://www.jianshu.com/p/6e18d21a4cad

16. astype 强制转换类型

17. df.isnull().any()则会判断哪些”列”存在缺失值

18. 关于category一些常见用法： https://www.cnblogs.com/zry-yt/p/11803892.html

19. 缺失值处理 https://www.jianshu.com/p/f77afc5bcfd3

我感觉最好是，用另外一种预测问题，来整个流程跑一次。

然后我现在对可视化出来的图不是很敏感能知道里面反应了什么问题。

期待之后能变得敏锐一点。

闷闷跑圈圈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘】Task02笔记汇总

通过EDA的流程进一步了解了Pandas，Seaborn，Missingno的用法。1. 通过看头和尾来大致了解数据情况，不放心的话执行一步看一步2. 关于sort_values(inplace=False)可以参考：https://blog.csdn.net/MsSpark/article/details/831541283. 然后要看看缺失值情况如何，个数小的时候选择...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。