【机器学习】数学基础——概率统计篇(1)

一、条件概率与贝叶斯公式

  随机事件 A , B A,B A,B发生的条件概率
P ( A , B ) = P ( A ∣ B ) P ( B ) , P ( A , B ) = P ( B ∣ A ) P ( A ) P(A,B)=\frac{P(A|B)}{P(B)},P(A,B)=\frac{P(B|A)}{P(A)} P(A,B)=P(B)P(AB),P(A,B)=P(A)P(BA)

  贝叶斯定理:通常,事件 A 在事件 B 发生的条件下的概率,与事件 B 在事件 A 发生的条件下的概率是不一样的;然而,这两者是有确定关系的,贝叶斯定理就是这种关系的陈述: P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

二、数学期望、方差与条件期望

  在概率论和统计学中,数学期望(或均值)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。

  方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

  条件期望是一个实数随机变量的相对于一个条件概率分布的期望值。换句话说,这是给定的一个或多个其他变量的值一个变量的期望值。它也被称为条件期望值。

  随机变量包括离散型和连续型,数学期望、方差与条件期望的计算也分离散型和连续型。

  (1)离散型:设离线型变量 X X X的分布律为 P { X = x k } = p k , k = 1 , 2 , . . . 。 P\{ X=x_k\}=p_k,k=1,2,...。 P{X=xk}=pk,k=1,2,...若级数 ∑ k = 1 ∞ x k p k \sum_{k=1}^{\infty} x_{k} p_{k} k=1xkpk绝对收敛,则称级数 ∑ k = 1 ∞ x k p k \sum_{k=1}^{\infty} x_{k} p_{k} k=1xkpk为随机变量 X X X的数学期望,记为 E ( X ) E(X) E(X),方差记为 D ( x ) D(x) D(x),即
E ( X ) = ∑ k = 1 ∞ x k p k E(X)=\sum_{k=1}^{\infty} x_{k} p_{k} E(X)=k=1xkpk D ( x ) = ∑ ( x k − E ( X ) ) 2 p ( x k ) D(x)=\sum\left(x_{k}-\mathrm{E}(X)\right)^{2} p\left(x_{k}\right) D(x)=(xkE(X))2p(xk)
  设 X X X Y Y Y是离散随机变量,则 X X X的条件期望在给定事件 Y = y Y=y Y=y条件下(其中,是 x x x处于 X X X的值域): E ( X ∣ Y = y ) = ∑ x ∈ X x P ( X = x ∣ Y = y ) = ∑ x ∈ X x P ( X = x , Y = y ) P ( Y = y ) \mathrm{E}(X | Y=y)=\sum_{x \in \mathcal{X}} x \mathrm{P}(X=x | Y=y)=\sum_{x \in \mathcal{X}} x \frac{\mathrm{P}(X=x, Y=y)}{\mathrm{P}(Y=y)} E(XY=y)=xXxP(X=xY=y)=xXxP(Y=y)P(X=x,Y=y)
  (2)连续型:设连续性随机变量 X X X的概率密度为 f ( x ) f(x) f(x),若积分 ∫ − ∞ + ∞ x f ( x ) d x \int_{-\infty}^{+\infty} x f(x) \mathrm{d} x +xf(x)dx绝对收敛,则称积分 ∫ − ∞ + ∞ x f ( x ) d x \int_{-\infty}^{+\infty} x f(x) \mathrm{d} x +xf(x)dx的值为随机变量 X X X的数学期望,记为 E ( X ) E(X) E(X),方差记为 D ( x ) D(x) D(x),即 E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x E(X)=+xf(x)dx D ( x ) = ∫ − ∞ + ∞ ( x − E ( X ) ) 2 f ( x ) d x D(x)=\int_{-\infty}^{+\infty}(x-\mathrm{E}(X))^{2} f(x) d x D(x)=+(xE(X))2f(x)dx  现在X是一个连续随机变量,而在Y仍然是一个离散变量,条件期望是:
E ( X ∣ Y = y ) = ∫ x x f x ( x ∣ Y = y ) d x \mathbf{E}(X | Y=y)=\int_{x} x f_{x}(x | Y=y) d x E(XY=y)=xxfx(xY=y)dx

三、大数定律

  大数定律说如果统计数据足够大,那么事物出现的频率就能无限接近他的期望值

  • 切比雪夫大数定理
      设 x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn 是一列相互独立的随机变量(或者两两不相关),他们分别存在期望 E ( x k ) E\left(x_{k}\right) E(xk)和方差 D ( x k ) D\left(x_{k}\right) D(xk) 。若存在常数 C C C使得: D ( x k ) ≤ C ( k = 1 , 2 , ⋯   , n ) D\left(x_{k}\right) \leq C(k=1,2, \cdots, n) D(xk)C(k=1,2,,n),则对任意小的正数 ε ε ε,满足公式一:
    lim ⁡ n → ∞ P { ∣ 1 n ∑ k = 1 n x k − 1 n ∑ k = 1 n E ( x k ) ∣ &lt; ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{k=1}^{n} x_{k}-\frac{1}{n} \sum_{k=1}^{n} E (x_{k})\right|&lt;\varepsilon\right\}=1 nlimP{n1k=1nxkn1k=1nE(xk)<ε}=1
      随着样本容量 n n n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。

  • 伯努利大数定律
      设 μ μ μ n n n次独立试验中事件 A A A发生的次数,且事件 A A A在每次试验中发生的概率为 P P P,则对任意正数 ε ε ε,有公式二:
    lim ⁡ n → ∞ P ( ∣ μ n n − p ∣ &lt; ε ) = 1 \lim _{n \rightarrow \infty} P\left(\left|\frac{\mu_{n}}{n}-p\right|&lt;\varepsilon\right)=1 nlimP(nμnp<ε)=1  该定律是切比雪夫大数定律的特例,其含义是,当 n n n足够大时,事件 A A A出现的频率将几乎接近于其发生的概率,即频率的稳定性。

  • 辛钦大数定律
      (常用的大数定律)设 { a i , i ≥ 1 } \left\{a_{i}, i \geq 1\right\} {ai,i1} 为独立同分布的随机变量序列,若 a i a_{i} ai 的数学期望存在,则服从大数定律,对任意正数 ε ε ε,有公式三:
    lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n a i − μ ∣ &lt; ε ) = 1 \lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^{n} a_{i}-\mu\right|&lt;\varepsilon\right)=1 nlimP(n1i=1naiμ<ε)=1

四、中心极限定理

  中心极限定理是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。即,给定一个任意分布的总体,每次从这些总体中随机抽取 n 个抽样,一共抽 m 次,然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布

五、特征函数

  常见概率分布的特征函数推导
 

六、参考资料

  1. 怎样用非数学语言讲解贝叶斯定理(Bayes theorem)?
  2. 大数定律–百度百科
  3. 钟形曲线:中心极限定理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值