统计学习方法第一章习题

最新推荐文章于 2023-07-17 17:30:20 发布

Maybe-zhb

最新推荐文章于 2023-07-17 17:30:20 发布

阅读量463

点赞数 4

本文链接：https://blog.csdn.net/weixin_43239842/article/details/96574079

版权

这篇博客详细探讨了伯努利模型在统计学习方法中的极大似然估计和贝叶斯估计。通过三步解释了如何在伯努利模型下进行极大似然估计，得出结果为1的概率。接着，讨论了经验风险最小化与对数损失函数的关系，证明了在特定条件下经验风险最小化等价于极大似然估计。最后，介绍了结构风险最小化，阐述了其与极大似然估计的关系，并解释了模型复杂度如何通过先验概率表示。

摘要由CSDN通过智能技术生成

习题
1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0或1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
答：
（1）伯努利模型的极大似然估计以及贝叶斯估计的三要素:

估计	模型	策略	算法
极大然估计	条件概率 P(Y\|X)	经验风险R_emp(f)	对经验风险最小化（求导 = 0）
贝叶斯估计	条件概率P(Y\|X)	结构风险R_srm(f)	对结构风险最小化（求导 = 0）

（2）伯努利模型：

定义随机变量Y为一次实验结果。Y = {0,1}，概率分布为P(Y)

P(Y=1) = θ
P(Y=0) = 1-θ

极大似然估计：
step1: 求出似然函数L(θ)
$\prod_{i = 1}^n{P(Y_{i}})$
n:实验次数
step2: 对数似然函数
$\prod_{i = 1}^n{P(Y_{i}}) }= log(θ^{k}(1-θ)^{(n-k)}) \\ =klogθ+(n-k)log(1-θ)$
step3: 对似然函数极大化,求出极大值点θ^*
$\nabla_{θ}log(L(θ))= \frac{k}{θ}+\frac{n-k}{1-θ}=0\\ θ^{*}=\frac{k}{n}$
结果为1的概率为 $θ^{*}=\frac{k}{n}$
贝叶斯估计：
贝叶斯估计中参数θ服从分布，P(θ)为先验概率分布。
设P(θ)为β（Beta Distribution) 分布.
$\frac{θ^{a-1}(1-θ)^{b-1}}{常数}$
$P(θ|Y_1,Y_2,..,Y_n) = \frac{P(Y_1,Y_2,...,Y_n|θ)P(θ)}{P(Y_1,Y_2,...,Y_n)}$
上述公式中分母与θ无关，
$P(θ|Y_1,Y_2,..,Y_n)∝P(Y_1,Y_2,...,Y_n|θ)P(θ)=\prod_{i=1}^{n}P(Y_i|θ)P(θ)\\ = θ^{k}(1-θ)^{n-k}θ^{a-1}(1-θ)^{b-1}\\=θ^{k+a-1}(1-θ)^{n-k+b-1}$
对上述结果最大化（求导为0）
$\frac{k+a-1}{n+(a-1)+(b-1)}$
1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。
答：
经验风险：
$R_{emp}(f)=\frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i))}$
对其进行最小化：
$min_{f属于F}{R_{emp}}$
F是假设空间。
条件概率分布: $f (x) = P (Y ∣ X)$
损失函数为对数损失： $L (Y, P (Y ∣ X)) = - l o g (P (Y ∣ X))$
$R_{emp} = \frac{1}{N}\sum_{i=1}^{N}{-\log{P(Y_i|X_i)}}\\=-\frac{1}{N}\log{\prod_{i=1}^{N}{P(Y_i|X_i)}}$
通过上个式子可以看出最小化经验损失等价于极大似然估计(前面有符号)

1.3 通过结构风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时、模型的复杂度由模型的先验概率表示时，结构风险最小化等价于极大似然估计。
答：
结构风险最小化是为了防止过拟合而提出的策略。等价于正则化。
$R_{srm} =\frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i))}+λ J(f)$
J(f)表示模型的复杂度。λ≥0为系数，用来权衡模型的拟合程度与复杂度。
对其进行最小化：
$min_{f属于F}{R_{srm}}$
F是假设空间。
条件概率分布: $f (x) = P (Y ∣ X)$
损失函数为对数损失： $L (Y, P (Y ∣ X)) = - l o g (P (Y ∣ X, θ))$
设模型参数为θ,且θ服从先验分布（贝叶斯）。概率分布为P(θ)。
$R_{srm} = \frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i,θ))}+λ J(f)\\ = -\frac{1}{N}\log{(\prod_{i=1}^{N}{P(Y_i|X_i,θ)}}-Nlog(exp(λ J(f))))\\= -\frac{1}{N}\log{\prod_{i=1}^{N}{P(Y_i|X_i,θ)}}exp(-λJ(f))^{N})$
由于 $\prod_{i=1}^{N}{P(Y_i|X_i,θ)}=P(Y|X,θ)$
$R_{srm}∝P(Y|X,θ)exp(-λ J(f))^N\\∝P(Y|X,θ)P(θ)\\∝\frac{P(Y|X,θ)P(θ)}{P(Y_1,Y_2,...,Y_n)}\\∝\frac{P(Y|θ)P(θ)}{P(Y_1,Y_2,...,Y_n)}$
模型的复杂度由模型的先验概率表示
$P(θ) = \exp(-λJ(f))^N$
从式子可以看出，结构风险最小化等价于极大似然估计。
当先验概率比较小时，模型复杂度比较大。