正态分布具有很多好的性质，很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办？

最新推荐文章于 2025-02-20 18:00:00 发布

玉心sober

最新推荐文章于 2025-02-20 18:00:00 发布

阅读量3.7w

点赞数 5

分类专栏：正态分布文章标签：正态分布 data transformations

本文链接：https://blog.csdn.net/lilyth_lilyth/article/details/8975976

版权

正态分布专栏收录该内容

1 篇文章

订阅专栏

本文探讨了数据服从正态分布的重要性及应用场景，如线性回归等。对于非正态分布的数据，介绍了两种数据转换方法：平方根转换和对数转换，并提供了检验数据正态性的几种方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据整体服从正态分布，那样本均值和方差则相互独立。正太分布具有很多好的性质，很多模型假设数据服从正态分布。例如线性回归(linear regression)，它假设误差服从正态分布，从而每个样本点出现的概率就可以表示成正态分布的形式，将多个样本点连乘再取对数，就是所有训练集样本出现的条件概率，最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。

ML中很多model都假设数据或参数服从正态分布，但是如果数据不服从正态分布怎么办？搜罗到这篇文章：http://udel.edu/~mcdonald/stattransform.html，是关于处理生物领域数据的handbook，很不错，里面用data transformations 方式来解决数据分布的这个问题。这里列举两种，有兴趣的可以看链接文章或继续搜索文章来研究。（希望哪个网友搜罗到好文章也给俺分享下）

data transformations步骤如下，
（1）首先根据数据样本画出均值和方差曲线
（2）如果均值和方差不相关，则不需要转换
（3）如果方差正比于均值，则进行square root transformation转换
（4）如果标准差正比于均值，则进行logarithmic transformation转换

检验数据正态性的方法有几大类，其中最为直观计算量也最小的就是图示法，里面有QQ图（分位数图）（@敲代码的张洋说这个是最屌丝的方法，哈哈）、PP图（百分位数图）、SP图（稳定化概率图）。先不深入研究了，用到了再好好研究下吧。