初学机器学习,老是对假设高维度数据的分布近似满足高斯分布或者正态分布表示不解。维基百科中介绍的中心极限定律给予这个现象以合理的解释。以下公式和推理摘自维基百科中的推导。这三个定理分层次递进的介绍了,满足一定条件时,独立,但不同分布的随机变量序列的标准化和以标准正态分布为极限。所以现实生活中,很多数据都无独有偶的表现出了近似高斯分布的性质。因为现实世界里的很多事物都是通过大量独立不同分布的随机变量所展现的。
这些在斯坦福《机器学习》教程中,Andrew Ng也曾介绍过。所以有些以高斯分布为基础的分析模型,如高斯模型和高斯混合模型中都假设了数据满足高斯分布,这是合理的。