机器学习概率论相关学习笔记

Aresiii

已于 2023-06-28 13:33:20 修改

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：概率论

于 2023-06-27 11:28:41 首次发布

本文链接：https://blog.csdn.net/Aresiii/article/details/131413585

版权

机器学习专栏收录该内容

84 篇文章 7 订阅

订阅专栏

一、什么是均值

在概率论中，均值是指随机变量的期望值，也称为数学期望。它是对随机变量可能取值的加权平均，其中权重是每个可能取值发生的概率。

对于离散型随机变量，均值的计算公式为：

μ = Σ(x * P(x))

其中，x表示随机变量可能的取值，P(x)表示随机变量取值为x的概率。Σ表示对所有可能取值的求和。

对于连续型随机变量，均值的计算公式为：

μ = ∫(x * f(x)) dx

其中，x表示随机变量可能的取值，f(x)表示随机变量的概率密度函数。∫表示对所有可能取值的积分。

均值代表了随机变量的中心位置或平均水平。它是在多次独立实验或观察中，对随机变量取值的平均期望。例如，如果进行一系列掷骰子的实验，每个可能的点数出现的次数足够多，那么骰子的均值就是所有可能点数的平均值，即期望值。

在概率论和统计学中，均值是一个重要的统计量，它能够描述随机变量的集中程度和中心趋势。它在许多概率模型和推断方法中都有广泛应用，例如正态分布、抽样理论和回归分析等。

二、什么是标准差

标准差是统计学中用来衡量一组数据的离散程度或变异程度的一种度量。它表示数据集合中各个数据点与平均值之间的平均差异程度。

标准差的计算过程如下：

计算数据集合的平均值，即将所有数据点的值相加，然后除以数据点的总数。
对于每个数据点，计算它与平均值之间的差值。
将每个差值平方，然后求平均值。
将上一步得到的平均值求平方根，即可得到标准差。

标准差的值越大，表示数据点之间的差异越大，数据集合的离散程度越高。相反，标准差的值越小，表示数据点之间的差异越小，数据集合的离散程度越低。

标准差在许多领域中被广泛应用，例如金融领域中用于衡量投资组合的风险，医学领域中用于衡量治疗效果的可靠性，以及质量控制领域中用于评估产品的一致性等。它可以帮助我们理解数据的分布情况，并进行比较和分析。

三、正态分布

正态分布（Normal distribution），也称为高斯分布（Gaussian distribution），是概率论和统计学中最为重要的概率分布之一。它具有钟形曲线的形状，因此也被称为钟形曲线或正态曲线。

正态分布的定义如下：

对于具有均值 μ（mean）和标准差 σ（standard deviation）的连续随机变量 X，其概率密度函数（Probability Density Function，PDF）可以表示为：

f(x) = (1 / (σ * √(2π))) * e^(-((x-μ)^2) / (2σ^2))

其中，e 是自然对数的底数，π 是圆周率。

这个概率密度函数描述了随机变量 X 取不同值时的概率分布情况。正态分布的概率密度函数曲线在均值 μ 处达到最高点，且左右对称。标准差 σ 决定了曲线的宽度，越大则曲线越宽，越小则曲线越尖锐。

正态分布具有一些重要的特性：

均值和中位数相等：正态分布的均值即为曲线的对称轴，也是曲线的中位数。
对称性：正态分布是关于均值对称的，也就是说，对于给定的均值和标准差，正态分布在均值两侧的概率是相等的。
标准正态分布：当均值 μ = 0，标准差 σ = 1 时，得到的正态分布称为标准正态分布。标准正态分布的概率密度函数可以简化为：

φ(x) = (1 / √(2π)) * e^(-x^2/2)

其中，φ(x) 表示标准正态分布的概率密度函数。
68-95-99.7 规则：对于任意的正态分布，约有 68% 的观测值落在均值的一个标准差范围内，约有 95% 的观测值落在均值的两个标准差范围内，约有 99.7% 的观测值落在均值的三个标准差范围内。这个规则在实际应用中具有重要意义。

正态分布在实际中具有广泛的应用。许多自然现象和人类行为都可以近似地服从正态分布。统计学和概率论的许多理论和方法都建立在正态分布的基础上，例如假设检验、置信区间估计等。

四、大数定律

大数定律（Law of Large Numbers）是概率论中的一条重要定律，描述了在独立随机变量序列的情况下，随着样本数量的增加，样本均值会趋近于期望值的现象。大数定律可分为弱大数定律和强大数定律两种形式。

弱大数定律（Weak Law of Large Numbers）：弱大数定律指出，对于一组独立同分布的随机变量序列X₁，X₂，X₃，...，Xₙ，其期望值为μ，方差为σ²，那么对于任意正数ε，有：

lim(n→∞) P(|(X₁+X₂+...+Xₙ)/n - μ| < ε) = 1

也就是说，随着样本数量n的增加，样本均值（X₁+X₂+...+Xₙ）/n会以概率1趋近于μ。

弱大数定律表明，当样本数量足够大时，样本均值接近于总体均值的概率非常高，但并不保证总是绝对趋近于期望值。
强大数定律（Strong Law of Large Numbers）：强大数定律进一步强化了弱大数定律的结论，它指出，对于一组独立同分布的随机变量序列X₁，X₂，X₃，...，Xₙ，其期望值为μ，方差为σ²，那么几乎处处成立：

lim(n→∞) (X₁+X₂+...+Xₙ)/n = μ

也就是说，随着样本数量n的增加，样本均值（X₁+X₂+...+Xₙ）/n几乎处处收敛于μ，几乎所有的样本路径都会趋近于总体均值。

强大数定律给出了更强的收敛性质，保证了样本均值几乎总是趋近于总体均值。

大数定律的应用非常广泛，特别是在统计学和概率论中。它提供了理论基础，使得我们可以通过收集足够多的样本来进行统计推断，并对随机事件的平均行为进行估计。大数定律在金融领域、社会科学研究、质量控制和实验设计等领域都有重要的应用。

五、中心极限定理

中心极限定理（Central Limit Theorem）是概率论中的一条重要定理，描述了当独立随机变量的数量足够大时，它们的和或均值会以接近正态分布的方式分布。中心极限定理是统计学中许多推断方法的理论基础之一。

具体来说，中心极限定理有以下几种形式：

林德贝格-列维定理（Lindeberg–Lévy Central Limit Theorem）：假设X₁，X₂，X₃，...，Xₙ是独立同分布的随机变量序列，它们的期望值为μ，方差为σ²。令Sₙ = X₁ + X₂ + ... + Xₙ表示随机变量的和，那么对于任意实数x，有：

lim(n→∞) P((Sₙ - nμ) / (σ√n) ≤ x) = Φ(x)

其中，Φ(x)是标准正态分布的累积分布函数。

林德贝格-列维定理说明了随机变量和的标准化形式（减去均值并除以标准差）在n趋向无穷大时趋近于标准正态分布。
独立同分布情况下的中心极限定理：假设X₁，X₂，X₃，...，Xₙ是独立同分布的随机变量序列，它们的期望值为μ，方差为σ²。令X̄ₙ表示随机变量的均值，即X̄ₙ = (X₁ + X₂ + ... + Xₙ) / n，那么对于任意实数x，有：

lim(n→∞) P((X̄ₙ - μ) / (σ/√n) ≤ x) = Φ(x)

该定理表明，随机变量均值的标准化形式在n趋向无穷大时趋近于标准正态分布。

中心极限定理的重要性在于它提供了一个统一的分布逼近结果，无论原始随机变量的分布形式如何，只要满足一定条件，随机变量和或均值都会趋近于正态分布。这使得正态分布成为了许多统计推断方法的基础，例如置信区间估计和假设检验。

需要注意的是，中心极限定理对于大样本量的情况成立，样本量越大，逼近效果越好。

Aresiii

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习概率论相关学习笔记

在概率论中，均值是指随机变量的期望值，也称为数学期望。它是对随机变量可能取值的加权平均，其中权重是每个可能取值发生的概率。对于离散型随机变量，均值的计算公式为：其中，x表示随机变量可能的取值，P(x)表示随机变量取值为x的概率。Σ表示对所有可能取值的求和。对于连续型随机变量，均值的计算公式为：其中，x表示随机变量可能的取值，f(x)表示随机变量的概率密度函数。∫表示对所有可能取值的积分。均值代表了随机变量的中心位置或平均水平。它是在多次独立实验或观察中，对随机变量取值的平均期望。
复制链接

扫一扫