机器学习数学基础(二)概率
累计分布函数
FX(x)=P(X≤x)
P(a<X<b)=FX(b)−FX(a)
主要表示的是概率的累计分布,方便与我们查找(a~b)之间的概率通过公式2来表示,但是当我们需要计算的a-b之间的有时候不容易计算,比如在 (−∞,1) 区间内不容易计算,于是产生概率密度函数。概率密度函数(更常用)
概率密度函数实际上是累计分布函数的导数
fX(x)=dFX(x)dx
那么如果要计算 (a<x<b) 的函数只需要对 fX(x) 在 (a,b) 间积分即可:
P[a<X<b]=∫bafX(x)d(x)
对于计算 (x<a) 区间内的概率大小,我们可以采用如下的微积分公式即可计算得到:
P[a<X<b]=∫b−∞fX(x)d(x)
如下图所示,图形与x轴围城的面积大小即为x落在 (−1σ,1σ) 的概率大小,计算函数积分就是概率的值。
- 高斯分布
高斯分布是日常中最常用的分布函数,大多数概率分布都服从高斯分布,对于一元概率密度表示为:(其中 μ 表示分布的期望值, σ2 表示方差,决定随机变量分布的分散程度,当 σ2 越小数据越集中)从图中可以看出。
f(x|μ,σ2)=1σ2π−−√e−(x−μ)22σ2
多元密度函数表示为:
fX(x1,⋯,xk)=1(2π)k|∑|−−−−−−−−√exp(−12(X−μ)T∑−1(x−μ))
中心极限定理:
独立同分布的随机变量,求和后依概率收敛于高斯分布;
(解释:通俗的说将多个杂乱无章的随机变量相加后,大多数服从高斯分布。)例如:
x=x1+x2+,…,+xk
x1,x2,…,xk 为相互之间没有联系的任意分布,但是多项相加之后很可能就服从高斯分布。
- 贝叶斯公式(机器学习中最重要的公式)
beyes 公式的推导:
P(A|B)=P(B|A)P(A)P(B)
通常, P(A|B)≠P(B|A) ,但是对于事假A和事件B同时发生的联合概率为:
P(AandB)=P(A)P(B|A)
P(BandA)=P(B)P(A|B)
P(AandB)=P(BandA)
P(A)P(B|A)=P(B)P(A|B)
P(A|B)=P(B|A)P(A)P(B)
概率密度形式为:
f(x|y)=f(x,y)f(y)=f(y|x)f(x)f(y)=f(y|x)f(x)∫∞−∞f(y|x)f(x)dx