机器学习数学基础初步回忆

机器学习数学回忆

@(机器学习)[机器学习数学回忆]

  • 条件概率

设A,B 是两个事件,且P(A)>0,称 P(B|A) = ($ \frac {P(AB)} {P(A)} $) 为在事件A发生的条件下B事件发生的概率

  • 全概率公式

设实验E的样本空间为S, A A A为E的事件,$ B_1 $ ,$ B_2 $ ,$ B_3 $ $ B_4,…, $ $ B_n $ 为S的一个划分,且P( B i B_i Bi)>0( i i i=1,2,…),则
P( A A A) = P( A ∣ B 1 A|B_1 AB1)P( B 1 B_1 B1)+P( A ∣ B 2 A|B_2 AB2)P( B 2 B_2 B2)+…+P( A ∣ B n A|B_n ABn)P( B n B_n Bn) =$ \sum_{i=1}^nP(A|B_i)P(B_i),i=1,2,…,n $
称为全概率公式

  • 贝叶斯公式

E E E 的样本空间为 S S S A A A为 的事件, B 1 B_1 B1, B 2 B_2 B2, B 3 B_3 B3,…, B n B_n Bn S S S 的一个划分,且P( A A A) >0,P( B i B_i Bi)>0( i i i=1,2,…,n)则
P P P( B i B_i Bi| A A A) = $ \frac {P(A|B_i)P(B_i)} {\sum_{j=1}^n P(A|B_j)P(B_j)} , , ,i=1,2,…,n$ 称为贝叶斯公式
P ( B i ) P(B_i) P(Bi)为先验概率 P ( A ∣ B i ) P(A|B_i) P(ABi)为条件概率 P ( B i ∣ A ) P(B_i|A) P(BiA)为后验概率 :表示事件A发生了并且属于 B i B_i Bi 类的概率。
如:
在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?
从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。
B 1 B_1 B1=男生, B 2 B_2 B2=女生 X X X=穿拖鞋
先验概率: P ( B 1 ) = 2 3 P(B_1)=\frac{2} {3} P(B1)=32 P ( B 2 ) = 1 3 P(B_2)=\frac {1} {3} P(B2)=31
条件概率:男生穿拖鞋概率: P ( X ∣ B 1 ) = 1 2 P(X|B_1)=\frac{1}{2} P(XB1)=21 女生穿拖鞋的概率: P ( X ∣ B 2 ) = 2 3 P(X|B_2)=\frac{2}{3} P(XB2)=32
则全概率穿拖鞋的概率: P ( X ) = P ( X ∣ B 1 ) ∗ P ( B 1 ) + P ( X ∣ B 2 ) ∗ P ( B 2 ) = 1 2 ∗ 2 3 + 2 3 ∗ 1 3 = 5 9 P(X)=P(X|B_1)*P(B_1)+P(X|B_2)*P(B_2)=\frac{1}{2}*\frac{2}{3}+\frac{2}{3}*\frac{1}{3}=\frac{5}{9} P(X)=P(XB1)P(B1)+P(XB2)P(B2)=2132+3231=95
贝叶斯:
穿拖鞋的是男生的概率: P ( B 1 ∣ X ) = P ( X ∣ B 1 ) P ( B 1 ) P ( X ) = 3 5 P(B_1|X) = \frac{P(X|B_1)P(B_1)}{P(X)}=\frac{3}{5} P(B1X)=P(X)P(XB1)P(B1)=53
穿拖鞋的是女生的概率: P ( B 2 ∣ X ) = P ( X ∣ B 2 ) P ( B 2 ) P ( X ) = 2 5 P(B_2|X) = \frac{P(X|B_2)P(B_2)}{P(X)}=\frac{2}{5} P(B2X)=P(X)P(XB2)P(B2)=52
及在有一个人穿拖鞋的情况下是男生的概率更大
例子来源

  • 最大似然估计

最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:
D = x 1 , x 2 , . . . , x n D={x_1,x_2,...,x_n} D=x1,x2,...,xn
似然函数(linkehood function):联合概率密度函数 P ( D ∣ θ ) P(D|\theta) P(Dθ)称为相对于 x 1 , x 2 , . . . , x n {x_1,x_2,...,x_n} x1,x2,...,xn θ \theta θ的似然函数。
l ( θ ) = p ( D ∣ θ ) = p ( x 1 , x 2 , . . . x n ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) l(\theta)=p(D|\theta)=p(x_1,x_2,...x_n|\theta)=\prod_{i=1}^Np(x_i|\theta) l(θ)=p(Dθ)=p(x1,x2,...xnθ)=i=1Np(xiθ)
如果 θ ^ \hat{\theta} θ^是参数空间中能使似然函数 l ( θ ) l(\theta) l(θ)最大的 θ \theta θ值,则 θ ^ \hat{\theta} θ^应该是最有可能的参数值,那么 θ ^ \hat{\theta} θ^就是 θ \theta θ的极大似然估计量。它是样本集的函数,记作:
θ ^ = d x 1 , x 2 , . . . , x n = d ( D ) \hat{\theta}=d{x_1,x_2,...,x_n}=d(D) θ^=dx1,x2,...,xn=d(D)
θ ^ ( x 1 , x 2 , . . . , x n ) 称 为 及 大 自 然 函 数 估 计 值 \hat{\theta}(x_1,x_2,...,x_n)称为及大自然函数估计值 θ^(x1,x2,...,xn)

  • 求解极大似然函数

ML估计:求使得出现该组样本的概率最大的θ值。
θ ^ = a r g m a x ⎵ θ ∏ i = 1 N P ( x i ∣ θ ) \hat{\theta}=arg \underbrace{max}_\theta\prod_{i=1}^NP(x_i|\theta) θ^=argθ maxi=1NP(xiθ)
为了方便计算取对数
H ( θ ) = l n l ( θ ) H(\theta)=lnl(\theta) H(θ)=lnl(θ)
( ^ θ ) = a r g m a x ⎵ θ H ( θ ) = a r g m a x ⎵ θ l n l ( θ ) = a r g m a x ⎵ θ ∑ i = 1 N l n P ( x i ∣ θ ) \hat(\theta)=arg\underbrace{max}_\theta H(\theta)=arg \underbrace{max}_\theta lnl(\theta)=arg \underbrace{max}_\theta \sum_{i=1}^NlnP(x_i|\theta) (^θ)=argθ maxH(θ)=argθ maxlnl(θ)=argθ maxi=1NlnP(xiθ)
1.未知数只有一个( θ \theta θ为标量)
在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:
d l ( θ ) d θ = 0 或 者 d H ( θ ) d θ = d l n l ( θ ) d θ = 0 \frac{dl(\theta)}{d\theta}=0或者\frac{dH(\theta)}{d\theta}=\frac{dlnl(\theta)}{d\theta}=0 dθdl(θ)=0dθdH(θ)=dθdlnl(θ)=0
2.未知数有多个( θ \theta θ为向量)
则θ可表示为具有S个分量的未知向量:
θ = [ θ 1 , θ 2 , θ 3 , . . . , θ s ] T \theta=[\theta_1,\theta_2,\theta_3,...,\theta_s]^T θ=[θ1,θ2,θ3,...,θs]T
记梯度算子:
Δ θ = [ σ σ θ 1 , σ σ θ 2 , . . . , σ σ θ s ] T \Delta_\theta=[\frac{\sigma}{\sigma\theta_1},\frac{\sigma}{\sigma\theta_2},...,\frac{\sigma}{\sigma\theta_s}]^T Δθ=[σθ1σ,σθ2σ,...,σθsσ]T
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。
Δ θ H ( θ ) = Δ θ ln ⁡ l ( θ ) = ∑ i = 1 N Δ θ ln ⁡ P ( x i ∣ θ ) = 0 \Delta_\theta H(\theta)=\Delta_\theta\ln l(\theta)=\sum_{i=1}^N\Delta_\theta\ln P(x_i|\theta)=0 ΔθH(θ)=Δθlnl(θ)=i=1NΔθlnP(xiθ)=0
方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。
参考

  • 例子:抽球举个通俗的例子:

假设一个袋子装有白球与红球,比例未知,现在抽取10次(每次抽完都放回,保证事件独立性),假设抽到了7次白球和3次红球,在此数据样本条件下,可以采用最大似然估计法求解袋子中白球的比例(最大似然估计是一种“模型已定,参数未知”的方法)。当然,这种数据情况下很明显,白球的比例是70%,但如何通过理论的方法得到这个答案呢?一些复杂的条件下,是很难通过直观的方式获得答案的,这时候理论分析就尤为重要了,这也是学者们为何要提出最大似然估计的原因。我们可以定义从袋子中抽取白球和红球的概率(联合密度)如下:
f ( X 1 , X 2 ∣ θ ) = f ( X 1 ∣ θ ) ∗ f ( X 2 ∣ θ ) f(X_1,X_2|\theta) = f(X_1|\theta)*f(X_2|\theta) f(X1,X2θ)=f(X1θ)f(X2θ) 其中 θ \theta θ是未知的,因此,我们定义似然 L L L为:
L ( θ ∣ X 1 , X 2 ) = f ( X 1 , X 2 ∣ θ ) = ∏ i = 1 2 f ( X i ∣ θ ) L(\theta|X_1,X_2)=f(X_1,X_2|\theta)=\prod_{i=1}^2f(X_i|\theta) L(θX1,X2)=f(X1,X2θ)=i=12f(Xiθ)
为计算方便两边取对数,也叫对数似然:
l n L ( θ ∣ X 1 , X 2 ) = l n f ( X 1 , X 2 ∣ θ ) = l n ∏ i = 1 2 f ( X i ∣ θ ) = l n ∑ i = 1 2 f ( X i ∣ θ ) = ∑ i = 1 2 l n f ( X i ∣ θ ) lnL(\theta|X_1,X_2)=lnf(X_1,X_2|\theta)=ln\prod_{i=1}^2f(X_i|\theta)=ln\sum_{i=1}^2f(X_i|\theta)=\sum_{i=1}^2lnf(X_i|\theta) lnL(θX1,X2)=lnf(X1,X2θ)=lni=12f(Xiθ)=lni=12f(Xiθ)=i=12lnf(Xiθ)
l n ( A ∗ B ) = l n A + l n B ln(A*B)=lnA+lnB ln(AB)=lnA+lnB
平均似然为( l a l_a la):
l a = 1 2 l n L ( θ ∣ X 1 , X 2 ) = 1 2 l n f ( X 1 , X 2 ∣ θ ) = 1 2 l n ∏ i = 1 2 f ( X i ∣ θ ) l_a=\frac{1}{2}lnL(\theta|X_1,X_2)=\frac{1}{2}lnf(X_1,X_2|\theta)=\frac{1} {2}ln\prod_{i=1}^2f(X_i|\theta) la=21lnL(θX1,X2)=21lnf(X1,X2θ)=21lni=12f(Xiθ)
最大似然估计的过程,就是找一个合适的 θ \theta θ,使得平均对数似然的值为最大。因此,可以得到以下公式(最大似然估计 θ m \theta_m θm):
θ m = a r g m a x l a ( θ ∣ X 1 , X 2 ) \theta_m=arg max l_a(\theta|X_1,X_2) θm=argmaxla(θX1,X2)
这里讨论的是2次采样的情况,当然也可以拓展到多次采样的情况:
θ m = a r g m a x l a ( θ ∣ X 1 , X 2 ) , . . . X n \theta_m=arg max l_a(\theta|X_1,X_2),...X_n θm=argmaxla(θX1,X2),...Xn
我们定义M为模型(也就是之前公式中的f),表示抽到白球的概率为 θ \theta θ,而抽到红球的概率为(1- θ \theta θ),因此10次抽取抽到白球7次的概率可以表示为:
P ( X 1 , X 2 , . . . X n ∣ M ) = P ( X 1 ∣ M ) ∗ P ( X 2 ∣ M ) ∗ . . . ∗ P ( X 10 ∣ M ) = θ 7 ( 1 − θ ) 3 P(X_1,X_2,...X_n|M)=P(X_1|M)*P(X_2|M)*...*P(X_{10}|M)=\theta^7(1-\theta)^3 P(X1,X2,...XnM)=P(X1M)P(X2M)...P(X10M)=θ7(1θ)3
将其描述为平均似然可得 l a l_a la
l a = 1 10 l n P ( X 1 , X 2 , . . . , X 10 ∣ M ) = 1 10 l n [ θ 7 ( 1 − θ ) 3 ] l_a=\frac{1}{10}lnP(X_1,X_2,...,X_{10}|M)=\frac{1}{10}ln[\theta^7(1-\theta)^3] la=101lnP(X1,X2,...,X10M)=101ln[θ7(1θ)3]
那么最大似然就是找到一个合适的 θ \theta θ,获得最大的平均似然。因此我们可以对平均似然的公式对 θ \theta θ求导,并另导数为0。
l a / ( θ ) = 7 θ 6 ( 1 − θ ) 3 − 3 θ 7 ( 1 − θ ) 2 = 0 ⇒ θ = 0.7 l_a^{/}(\theta)=7\theta^6(1-\theta)^3-3\theta^7(1-\theta)^2=0\Rightarrow\theta=0.7 la/(θ)=7θ6(1θ)33θ7(1θ)2=0θ=0.7
例子来源

  • 高斯分布

正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。
X − N ( μ , σ 2 ) X -N(\mu,\sigma^2) XN(μ,σ2),则其概率密度函数为
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2
正态分布的数学期望值或期望值 μ \mu μ等于位置参数,决定了分布的位置;其方差 σ 2 \sigma^2 σ2的开平方或标准差 σ \sigma σ等于尺度参数,决定了分布的幅度
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数 μ = 0 \mu =0 μ=0,尺度参数 σ 2 = 1 \sigma^2 = 1 σ2=1的正态分布。
为 了 理 解 记 下 笔 记 \color{red}{为了理解记下笔记}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值