统计学习方法 第一章习题

这篇博客详细探讨了伯努利模型在统计学习方法中的极大似然估计和贝叶斯估计。通过三步解释了如何在伯努利模型下进行极大似然估计,得出结果为1的概率。接着,讨论了经验风险最小化与对数损失函数的关系,证明了在特定条件下经验风险最小化等价于极大似然估计。最后,介绍了结构风险最小化,阐述了其与极大似然估计的关系,并解释了模型复杂度如何通过先验概率表示。
摘要由CSDN通过智能技术生成

习题
1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0或1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
答:
(1) 伯努利模型的极大似然估计以及贝叶斯估计的三要素:

估计模型策略算法
极大然估计条件概率 P(Y|X)经验风险Remp(f)对经验风险最小化(求导 = 0)
贝叶斯估计条件概率P(Y|X)结构风险Rsrm(f)对结构风险最小化(求导 = 0)
(2)伯努利模型:

定义随机变量Y为一次实验结果。Y = {0,1},概率分布为P(Y)

P(Y=1) = θ
P(Y=0) = 1-θ

极大似然估计:
step1: 求出似然函数L(θ)
L ( θ ) = ∏ i = 1 n P ( Y i ) L(θ) = \prod_{i = 1}^n{P(Y_{i}}) L(θ)=i=1nP(Yi)
n:实验次数
step2: 对数似然函数
l o g ( L ( θ ) ) = l o g ∏ i = 1 n P ( Y i ) = l o g ( θ k ( 1 − θ ) ( n − k ) ) = k l o g θ + ( n − k ) l o g ( 1 − θ ) log(L(θ)) = log{ \prod_{i = 1}^n{P(Y_{i}}) }= log(θ^{k}(1-θ)^{(n-k)}) \\ =klogθ+(n-k)log(1-θ) log(L(θ))=logi=1nP(Yi)=log(θk(1θ)(nk))=klogθ+(nk)log(1θ)
step3: 对似然函数极大化,求出极大值点θ*
∇ θ l o g ( L ( θ ) ) = k θ + n − k 1 − θ = 0 θ ∗ = k n \nabla_{θ}log(L(θ))= \frac{k}{θ}+\frac{n-k}{1-θ}=0\\ θ^{*}=\frac{k}{n} θlog(L(θ))=θk+1θnk=0θ=nk
结果为1的概率为 θ ∗ = k n θ^{*}=\frac{k}{n} θ=nk
贝叶斯估计:
贝叶斯估计中参数θ服从分布,P(θ)为先验概率分布。
设P(θ)为β(Beta Distribution) 分布.
P ( θ ) = θ a − 1 ( 1 − θ ) b − 1 常 数 P(θ) = \frac{θ^{a-1}(1-θ)^{b-1}}{常数} P(θ)=θa1(1θ)b1
P ( θ ∣ Y 1 , Y 2 , . . , Y n ) = P ( Y 1 , Y 2 , . . . , Y n ∣ θ ) P ( θ ) P ( Y 1 , Y 2 , . . . , Y n ) P(θ|Y_1,Y_2,..,Y_n) = \frac{P(Y_1,Y_2,...,Y_n|θ)P(θ)}{P(Y_1,Y_2,...,Y_n)} P(θY1,Y2,..,Yn)=P(Y1,Y2,...,Yn)P(Y1,Y2,...,Ynθ)P(θ)
上述公式中分母与θ无关,
P ( θ ∣ Y 1 , Y 2 , . . , Y n ) ∝ P ( Y 1 , Y 2 , . . . , Y n ∣ θ ) P ( θ ) = ∏ i = 1 n P ( Y i ∣ θ ) P ( θ ) = θ k ( 1 − θ ) n − k θ a − 1 ( 1 − θ ) b − 1 = θ k + a − 1 ( 1 − θ ) n − k + b − 1 P(θ|Y_1,Y_2,..,Y_n)∝P(Y_1,Y_2,...,Y_n|θ)P(θ)=\prod_{i=1}^{n}P(Y_i|θ)P(θ)\\ = θ^{k}(1-θ)^{n-k}θ^{a-1}(1-θ)^{b-1}\\=θ^{k+a-1}(1-θ)^{n-k+b-1} P(θY1,Y2,..,Yn)P(Y1,Y2,...,Ynθ)P(θ)=i=1nP(Yiθ)P(θ)=θk(1θ)nkθa1(1θ)b1=θk+a1(1θ)nk+b1
对上述结果最大化(求导为0)
θ = k + a − 1 n + ( a − 1 ) + ( b − 1 ) θ = \frac{k+a-1}{n+(a-1)+(b-1)} θ=n+(a1)+(b1)k+a1
1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
答:
经验风险:
R e m p ( f ) = 1 N ∑ i N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i))} Remp(f)=N1iNL(yi,f(xi))
对其进行最小化:
min ⁡ f 属 于 F R e m p \min_{f属于F}{R_{emp}} fFminRemp
F是假设空间。
条件概率分布: f ( x ) = P ( Y ∣ X ) f(x) = P(Y|X) f(x)=P(YX)
损失函数为对数损失: L ( Y , P ( Y ∣ X ) ) = − l o g ( P ( Y ∣ X ) ) L(Y,P(Y|X))=-log(P(Y|X)) L(Y,P(YX))=log(P(YX))
R e m p = 1 N ∑ i = 1 N − log ⁡ P ( Y i ∣ X i ) = − 1 N log ⁡ ∏ i = 1 N P ( Y i ∣ X i ) R_{emp} = \frac{1}{N}\sum_{i=1}^{N}{-\log{P(Y_i|X_i)}}\\=-\frac{1}{N}\log{\prod_{i=1}^{N}{P(Y_i|X_i)}} Remp=N1i=1NlogP(YiXi)=N1logi=1NP(YiXi)
通过上个式子可以看出最小化经验损失等价于极大似然估计(前面有符号)

1.3 通过结构风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时、模型的复杂度由模型的先验概率表示时,结构风险最小化等价于极大似然估计。
答:
结构风险最小化是为了防止过拟合而提出的策略。等价于正则化。
R s r m = 1 N ∑ i N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm} =\frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i))}+λ J(f) Rsrm=N1iNL(yi,f(xi))+λJ(f)
J(f)表示模型的复杂度。λ≥0为系数,用来权衡模型的拟合程度与复杂度。
对其进行最小化:
min ⁡ f 属 于 F R s r m \min_{f属于F}{R_{srm}} fFminRsrm
F是假设空间。
条件概率分布: f ( x ) = P ( Y ∣ X ) f(x) = P(Y|X) f(x)=P(YX)
损失函数为对数损失: L ( Y , P ( Y ∣ X ) ) = − l o g ( P ( Y ∣ X , θ ) ) L(Y,P(Y|X))=-log(P(Y|X,θ)) L(Y,P(YX))=log(P(YX,θ))
设模型参数为θ,且θ服从先验分布(贝叶斯)。概率分布为P(θ)。
R s r m = 1 N ∑ i N L ( y i , f ( x i , θ ) ) + λ J ( f ) = − 1 N log ⁡ ( ∏ i = 1 N P ( Y i ∣ X i , θ ) − N l o g ( e x p ( λ J ( f ) ) ) ) = − 1 N log ⁡ ∏ i = 1 N P ( Y i ∣ X i , θ ) e x p ( − λ J ( f ) ) N ) R_{srm} = \frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i,θ))}+λ J(f)\\ = -\frac{1}{N}\log{(\prod_{i=1}^{N}{P(Y_i|X_i,θ)}}-Nlog(exp(λ J(f))))\\= -\frac{1}{N}\log{\prod_{i=1}^{N}{P(Y_i|X_i,θ)}}exp(-λJ(f))^{N}) Rsrm=N1iNL(yi,f(xi,θ))+λJ(f)=N1log(i=1NP(YiXi,θ)Nlog(exp(λJ(f))))=N1logi=1NP(YiXi,θ)exp(λJ(f))N)
由于 ∏ i = 1 N P ( Y i ∣ X i , θ ) = P ( Y ∣ X , θ ) \prod_{i=1}^{N}{P(Y_i|X_i,θ)}=P(Y|X,θ) i=1NP(YiXi,θ)=P(YX,θ)
R s r m ∝ P ( Y ∣ X , θ ) e x p ( − λ J ( f ) ) N ∝ P ( Y ∣ X , θ ) P ( θ ) ∝ P ( Y ∣ X , θ ) P ( θ ) P ( Y 1 , Y 2 , . . . , Y n ) ∝ P ( Y ∣ θ ) P ( θ ) P ( Y 1 , Y 2 , . . . , Y n ) R_{srm}∝P(Y|X,θ)exp(-λ J(f))^N\\∝P(Y|X,θ)P(θ)\\∝\frac{P(Y|X,θ)P(θ)}{P(Y_1,Y_2,...,Y_n)}\\∝\frac{P(Y|θ)P(θ)}{P(Y_1,Y_2,...,Y_n)} RsrmP(YX,θ)exp(λJ(f))NP(YX,θ)P(θ)P(Y1,Y2,...,Yn)P(YX,θ)P(θ)P(Y1,Y2,...,Yn)P(Yθ)P(θ)
模型的复杂度由模型的先验概率表示
P ( θ ) = exp ⁡ ( − λ J ( f ) ) N P(θ) = \exp(-λJ(f))^N P(θ)=exp(λJ(f))N
从式子可以看出,结构风险最小化等价于极大似然估计
当先验概率比较小时,模型复杂度比较大。

  1. λ较大时,模型倾向于选择模型较简单(J(f)较小)的模型,拟合效果较差(经验损失比较大)。
  2. λ较小时,模型倾向于选择模型较复杂(J(f)较大)的模型。拟合效果较好(经验损失比较小)。
  3. 结构风险需要经验风险以及模型复杂度同时小。
  4. 结构风险小的模型旺旺对训练数据以及未知的测试数据都有比较好的预测。

参考了这个博客的解答过程,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值