![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据预处理
文章平均质量分 70
打牛地
这个作者很懒,什么都没留下…
展开
-
missingno库---缺失值可视化分析
缺失值当我们拿到数据的时候,数据不一定是完整的,有时候一些特征有缺失值,我们可以通过可视化缺失值来决定我们下一步要进行的操作。missingno库missingno是一个可视化缺失值的库,方便使用,我们可以用pip install missingno 即可下载该库。例子import missingno as msnomsno.matrix(players.sample(500))#pl...原创 2018-11-06 19:48:42 · 5287 阅读 · 1 评论 -
数据特征 归一化/标准化 方法
https://blog.csdn.net/jacke121/article/details/79008333https://blog.csdn.net/zhaobinbin2015/article/details/81228027原创 2018-11-07 19:24:08 · 2051 阅读 · 0 评论 -
(Pearson)皮尔逊相关系数和spearman相关系数(附python实现)
今天在做数据分析的时候,发现了需要计算特征之间的相似度,从而在相似度比较高的特征之间保留一个就行。查了一下,发现可以通过皮尔逊相关系数和spearman相关系数来计算特征之间的相似度,下面将介绍这两个系数和区别。皮尔逊相关系数下面是皮尔逊相关系数的计算公式,只需要将(X和Y的协方差)/(X的标准差*Y的标准差)可以化简成spearman相关系数简单的相关系数的分类那么对于这两个系...原创 2018-11-11 19:08:22 · 19208 阅读 · 2 评论 -
独热编码(OneHotEncoder)和标签编码(LabelEncoder)
数据分类我们在构建模型对数据进行训练之前,需要对数据进行特征工程,我们的数据可以分为连续型和离散型。对于连续型数据,我们一般的做法是对其进行标准化或者归一化,之前写过一篇标准化和归一化的介绍,大家有兴趣的可以看一下:https://blog.csdn.net/weixin_43172660/article/details/83826051对于离散型数据,我们基本就是按照one-hot(独热)...原创 2018-12-07 20:29:02 · 15327 阅读 · 3 评论