机器学习中的数学——常用概率分布(四):均匀分布(Uniform分布)

### 均匀分布与正态分布在统计学和机器学习中的区别 #### 1. 数学特性差异 均匀分布是一种简单的概率分布,在给定区间内每个数值的发生概率相等。如果随机变量 \( X \) 遵循参数为 \( a \) 和 \( b \)均匀分布,则其概率密度函数可以表示为: \[ f_X(x|a,b)=\frac{1}{b-a}, \quad a<x<b \] 这表明在整个范围内,任何单个值出现的机会都是相同的[^1]。 相比之下,正态分布具有钟形曲线特征,由均值 (\( \mu \)) 和标准差 (\( \sigma \)) 参数化描述。该分布的概率密度函数形式如下所示: \[ f_X(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\cdot\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] 这种形状意味着大多数观测集中在平均数附近,而极端偏离的情况较少见[^3]。 #### 2. 应用场景不同 在实际应用中,这两种分布适用于不同类型的数据建模需求。当处理那些理论上应该没有任何偏好地取遍整个可能范围内的每一个值的情形时——比如在一个公平骰子投掷实验里各个面朝上的可能性——就会采用均匀分布来刻画这些现象;而在自然和社会科学领域中遇到大量相互作用因素共同影响某一测量指标的结果时(例如人的身高体重),往往更倾向于假设它们服从某种近似于正态的形式[^4]。 另外值得注意的是中心极限定理指出:无论原始总体是什么样的非正态分布形态,只要样本容量足够大,那么基于此抽取出来的多个独立简单随机抽样所组成的样本均值将会逐渐逼近一个特定的正态分布模式。这一理论解释了很多现实世界里的数据为何呈现出接近高斯性质的原因之一。 #### 3. 对模型的影响 对于机器学习而言,输入特征是否遵循某些预设好的分布会对最终训练效果产生重要影响。举例来说,在构建神经网络之前通常需要对图像像素强度做标准化变换使其大致符合零均值单位方差的标准正态分布,从而加速收敛过程并提高泛化能力;而对于像生成对抗网络这样的复杂架构则可能会利用到更加灵活多变的噪声源作为潜在空间编码的基础,此时就有可能涉及到其他类型的分布均匀分布来进行初始化设置。 ```python import numpy as np import matplotlib.pyplot as plt # Generate samples from uniform and normal distributions uniform_samples = np.random.uniform(-1, 1, size=1000) normal_samples = np.random.normal(loc=0., scale=1., size=1000) plt.figure(figsize=(12, 6)) plt.subplot(1, 2, 1) plt.hist(uniform_samples, bins='auto', color='#0504aa') plt.title('Uniform Distribution') plt.subplot(1, 2, 2) plt.hist(normal_samples, bins='auto', color='#ff7f0e') plt.title('Normal Distribution') plt.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

von Neumann

您的赞赏是我创作最大的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值