通过EDA的流程进一步了解了Pandas,Seaborn,Missingno的用法。
1. 通过看头和尾来大致了解数据情况,不放心的话执行一步看一步
2. 关于sort_values(inplace=False)可以参考:
https://blog.csdn.net/MsSpark/article/details/83154128
3. 然后要看看缺失值情况如何,个数小的时候选择填充,lgb等数模型可以空着,树会自己优化的,NAN如果过多可以考虑删掉。
4. missingno是一个可视化缺失值的库,白线越多,代表缺失值越多
5. pandas里的value_counts()计算每个不同值的个数
6. 某个类别特征严重倾斜的时候可以删掉,深挖的意义不太大
7. sns.distplot(y, kde=False, fit=st.johnsonsu) 用seaborn库来画y,用无界约翰逊分布来拟合
8. 看了偏度和峰度之后,复习了一下常见的统计方法:https://blog.csdn.net/luckarecs/article/details/71627893
9. https://www.cnblogs.com/wyy1480/p/10474046.html matplotlib.pyplot.hist 是histogram(直方图)的缩写
10. 对数变换之后,分布会变得均匀,这是预测问题常用的小技巧。
11. 有些数据自带数值特征标签和类型特征标签,但我们这个task里面则是要人为设定
12. 关于unique()和nunique():
- unique()是以 数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)
- nunique() 即返回的是唯一值的个数
13. {:15}——位置映射,相当于{0:15},对应于format中的'',15为字符宽度 (字符串格式化方法之一)
14. pandas的melt方法:https://blog.csdn.net/mingkoukou/article/details/82867218
15. 此处是多变量之间的关系可视化,可视化更多学习可参考很不错的文章 https://www.jianshu.com/p/6e18d21a4cad
16. astype 强制转换类型
17. df.isnull().any()则会判断哪些”列”存在缺失值
18. 关于category一些常见用法: https://www.cnblogs.com/zry-yt/p/11803892.html
19. 缺失值处理 https://www.jianshu.com/p/f77afc5bcfd3
我感觉最好是,用另外一种预测问题,来整个流程跑一次。
然后我现在对可视化出来的图不是很敏感能知道里面反应了什么问题。
期待之后能变得敏锐一点。