第一章-统计学习及监督学习概论

题目1:说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。


模型:伯努利模型,即定义在取值为0与1的随机变量上的概率分布。
策略:极大似然估计和贝叶斯估计的策略都是对数损失函数,贝叶斯估计使用的是结构风险最小化。
算法:极大似然估计所使用的算法是求取经验风险函数的极小值,贝叶斯估计所使用的算法是求取参数的后验分布,然后计算其期望。

P ( A = 1 ) = θ P(A = 1)= \theta P(A=1)=θ, 进行了n次实验,其中有k次值为1

  • 方法一:极大似然估计
    设似然函数为 L ( θ ) = ∏ i = 1 n P ( A i ) = θ k ( 1 − θ ) n − k L(\theta)=\prod_{i=1}^{n} P\left(A_{i}\right)=\theta^{k}(1-\theta)^{n-k} L(θ)=i=1nP(Ai)=θk(1θ)nk
    取对数为 L ( θ ) = k ∗ ln ⁡ θ + ( n − k ) ∗ ln ⁡ ( 1 − θ ) L(\theta)=k * \ln \theta+(n-k) * \ln (1-\theta) L(θ)=klnθ+(nk)ln(1θ)
    对L求 θ \theta θ 导: L ′ ( θ ) = k θ − n − k 1 − θ L^{\prime}(\theta)=\frac{k}{\theta}-\frac{n-k}{1-\theta} L(θ)=θk1θnk
    令L’等于0, θ = k n \theta=\frac{k}{n} θ=nk

  • 方法二:贝叶斯估计

    θ \theta θ 看作一个变量,假设其先验分布为均匀分布,更具贝叶斯定理,其后验分布为:

    f ( θ ∣ A 1 , … , A n ) = f ( A 1 , d o t s , A n ∣ θ ) f ( θ ) ∫ f ( A 1 , … , A n ) f ( θ ) d θ f(\theta|A_1,\dots,A_n) = \frac{f(A_1,dots,A_n|\theta)f(\theta)}{\int f(A_1,\dots,A_n)f(\theta)d\theta} f(θA1,,An)=f(A1,,An)f(θ)dθf(A1,dots,Anθ)f(θ)

    可化为 f ( θ ∣ A 1 , … , A n ) ∝ θ k ( 1 − θ ) n − k f(\theta|A_1,\dots,A_n)\propto\theta^k(1-\theta)^{n-k} f(θA1,,An)θk(1θ)nk,因为上市分母与 θ \theta θ 无关( f ( θ ) = 1 f(\theta)=1 f(θ)=1),此时想要最大化后验概率,需求的 θ k ( 1 − θ ) n − k \theta^k(1-\theta)^{n-k} θk(1θ)nk的极值点,此时求解方法同极大似然估计。

当模型是条件概率分布、损失函数是对数损失函数时,经验风险最小化等价于极大似然估计(maximum likelihood estimation)。

证明

对数损失函数(logarithmic loss function):
L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X)) = -logP(Y|X) L(Y,P(YX))=logP(YX)
经验风险最小化(structural risk minimization, SRM)求最优化模型就是求解最优化问题:
m i n 1 N ∑ i = 1 n L ( y i , f ( x i ) ) min\frac{1}{N}\sum_{i=1}^{n}L(y_i,f(x_i)) minN1i=1nL(yi,f(xi))
将对数损失函数带入最优化问题得:
m i n 1 N ∑ i = 1 n L ( y i , f ( x i ) ) = m i n − 1 N ∑ i = 1 n l o g P ( y i ∣ x i ) = m a x 1 N l o g P ( Y ∣ X ) min\frac{1}{N}\sum_{i=1}^{n}L(y_i,f(x_i))=min-\frac{1}{N}\sum_{i=1}^{n}logP(y_i|x_i)=max\frac{1}{N}logP(Y|X) minN1i=1nL(yi,f(xi))=minN1i=1nlogP(yixi)=maxN1logP(YX)

当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP)就是结构风险最小化的例子。

证明

求解最优结构风险最小化模型,就是求解最优化问题:
m i n 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ J ( f ) min\frac{1}{N}\sum_{i=1}^{n}L(y_i,f(x_i))+\lambda J(f) minN1i=1nL(yi,f(xi))+λJ(f)
将对数损失函数及 J ( f ) = − λ P ( θ ) J(f)=-\lambda P(\theta) J(f)=λP(θ)带入最优化问题得:
m i n − 1 N ( ∑ i = 1 n l o g P ( y i ∣ x i ) − λ J ( f ) ) = m a x 1 N l o g P ( Y ∣ X ) + P ( θ ) min-\frac{1}{N}(\sum_{i=1}^{n}logP(y_i|x_i)-\lambda J(f))=max\frac{1}{N}logP(Y|X)+P(\theta) minN1(i=1nlogP(yixi)λJ(f))=maxN1logP(YX)+P(θ)
等价于: 后验概率最大化
P ( θ ∣ D ) = P ( θ ) P ( D ∣ θ ) P ( D ) P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)} P(θD)=P(D)P(θ)P(Dθ)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值