原始数据预处理之逼近正态分布

最新推荐文章于 2022-03-31 17:15:43 发布

xunuo_nwpu

最新推荐文章于 2022-03-31 17:15:43 发布

阅读量881

点赞数

分类专栏： Kaggle 文章标签：数据挖掘 Kaggle

原文链接：https://blog.csdn.net/lamusique/article/details/96495077

版权

Kaggle 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

在机器学习和深度学习中，我们经常要对输入的数据做归一化或者在隐藏层使用Batch-Normlization（BN）操作，将数据范围缩放到[0,1]或者[-1, 1]之间，主要作用：可以加快神经网络训练速度，防止过拟合。
然而无论做归一化还是BN处理，虽然将数据的均值变为0，方差变为1，但是数据的整体分布并不一定服从标准的正态分布（实际数据大部分时候都不会是），做归一化和BN时，我们求出来的均值和方差，并不能说明我们数据是服从正态分布的。

正态化的原因：

有些模型应用条件就是要求数据满足正态性分布。如：贝叶斯、逻辑回归，KNN，Kmeans等涉及到概率分布、参数距离比较等，转换为正态分布，模型条件更充足。但并不意味着你的模型结果会更好一点。
其次正态分布，数据的泛化性高。因为自然界很多事物的概率密度很大是正态分布。
从目标分布来说，偏态分布会导致label数据的MSE出现误导，或许结果看着很小，但实际结果很大，你可以考虑纠正一下分布正态性。
我们在进行机器学习/深度学习训练的时候，往往希望数据越接近正态分布越好，这样对于训练效果会有明显的提升。

不适合正态化的数据：

如果是分类预测，你的特征-标签联合分布是一簇一簇的，没意义。另外分类中特征为正态分布，不太适合做有效特征（相关性很小的，几乎没有贡献）。
如果是Tree model，对数据正态分布转换没有意义，他本质是划分特征，根据数据分布，不断去划分数据，最终得到各个叶节点，机器自己给你划分。你做了正态分布转换，只是让机器好划分一些。

什么时候做正态化？
偏态分布最好纠正，或许有用（理论上有用，实际上可能没用，因为数据量的分布限制）。这就好比于“你打个喷嚏可以吃板蓝根，或许有用，或许没用，但绝对不会导致你喷嚏更加严重”，就是说针对偏态分布，你可以正态化一下，肯定不会有影响哈哈哈。
什么时候不做正态化?
不是说所有分布都要转换为正态分布的，因为你不能保证正态分布就很有效，其次不是所有数据分布都类似于正态分布，可能是其他乱七八槽的分布，又或许是大数定理下的分布渐进正态性。（比如泊松分布、卡方分布等），针对这些非正态分布你就别动它啦。

上述内容引用于此文章

Kaggle正态化例子：
见上篇文章House Prices: Advanced Regression Techniques的一篇Notebook

xunuo_nwpu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
原始数据预处理之逼近正态分布

House Prices: Advanced Regression Techniques1.histogram直方图默认纵轴为频率，各种房子的售价和频率的图，感觉参考价值不是很大，但是直方图很经典2.scatter散点图concat数据合并与重塑，将df_train中的两列取出来。上面散点图的样子就可以被近似认为是线性关系。3.boxpolt箱型图上面plt.subplot是画子...
复制链接

扫一扫