统计学习方法第一章

最新推荐文章于 2022-04-03 11:32:41 发布

weixin_mm975247003

最新推荐文章于 2022-04-03 11:32:41 发布

阅读量143

点赞数

分类专栏：李航统计学习方法答案文章标签：李航统计学习方法答案

本文链接：https://blog.csdn.net/fly975247003/article/details/101394544

版权

李航统计学习方法答案专栏收录该内容

1 篇文章 0 订阅

订阅专栏

统计学习方法第一章

1.1

统计学习方法三要数：模型，策略，算法。
模型：伯努利模型，即定义在取值为0与1的随机变量上的概率分布。
策略：极大似然估计和贝叶斯估计的策略都是对数损失函数，只不过贝叶斯估计使用的是结构风险最小化。
算法：极大似然估计使用的算法是求取经验函数风险函数的最小值，贝叶斯估计所使用的算法是求取参数的后验分布，然后计算其期望。
定义B为取值为0或1的随机变量，并设B=1的概率是θ，即:
$P(B=1)=\theta,P(B=0)=1-\theta$
抽取n个独立同分布的随机变量 $B_1,B_2,B_3...B_n$ 。使用极大似然估计求经验风险函数的极值点。
$L(\theta ) = \prod\limits_{i = 1}^n {P({B_i}) = {\theta ^k}(1 - \theta )}$
求对数： $\begin{array}{cccc} \log (L(\theta )) &=& \log (\prod\limits_{i = 1}^n {P({B_i}))} \\ &=& \log ({\theta ^k}{(1 - \theta )^{n - k}})\\ &=& k\log (\theta ) + (n - k)\log (1 - \theta ) \end{array}$
令对数似然函数的导数为0： $\frac{{\partial \log (L(\theta ))}}{{\partial \theta }} = \frac{k}{\theta } - \frac{{n - k}}{{1 - \theta }} = 0$
解之得： $\theta=\frac{k}{n}$
贝叶斯估计： $P(\theta |{B_1},{B_2},{B_3},...{B_n}) = \frac{{P({B_1},{B_2},{B_3},...{B_n}|\theta )P(\theta )}}{{P({B_1},{B_2},{B_3},...{B_n})}}$
根据观察到的结果修正θ，也就是假设θ是随机变量，θ服从β分布，有很多个可能的取值，我们要取的值时在已知观察结果的条件下使θ出现概率最大的值。上式分母是不变的，求分子最大就可以。 $\begin{array}{ccccc} \theta & = & \mathop {\arg \max }\limits_\theta P({B_1},{B_2},{B_3},...{B_n}|\theta )P(\theta )\\ & = & \mathop {\arg \max }\limits_\theta \prod\limits_{i = 1}^n {P({B_i}|\theta )P(\theta )} \\ & = & \mathop {\arg \max }\limits_\theta {\theta ^k}{(1 - \theta )^{n - k}}{\theta ^{a - 1}}{(1 - \theta )^{b - 1}}\\ & = & \frac{{k + (a - 1)}}{{n + (a - 1) + (b - 1)}} \end{array}$
其中a,b是β分布的参数 $\beta (\theta ;a,b) = \frac{{{\theta ^{a - 1}}{{(1 - \theta )}^{b - 1}}}}{c}$ （其中c是一个常数），确定a,b之后就可以确定θ。

1.2

模型是条件概率分布： $P_\theta(Y,X)$
损失函数是对数损失函数： $L (Y, P (Y ∣ X)) = - l o g P (Y ∣ X)$
经验风险为： $\begin{array}{ccccc}R_{emp}(f) & = & \frac{1}{N}\sum\limits_{i=1}^N L(y_i,f(x_i))\\ & = & \frac{1}{N}\sum\limits_{i=1}^N-logP(y_i|x_i)\\&=&-\frac{1}{N}\sum\limits_{i=1}^NlogP(y_i|x_i) \end{array}$
最小化经验风险，即最小化 $\frac{1}{N}\sum\limits_{i=1}^N-logP(y_i|x_i)$ ，即最大化 $\frac{1}{N}\sum\limits_{i=1}^NlogP(y_i|x_i)$ 即最大化极大似然估计。

weixin_mm975247003

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法第一章

统计学习方法第一章1.11.21.1统计学习方法三要数：模型，策略，算法。模型：伯努利模型，即定义在取值为0与1的随机变量上的概率分布。策略：极大似然估计和贝叶斯估计的策略都是对数损失函数，只不过贝叶斯估计使用的是结构风险最小化。算法：极大似然估计使用的算法是求取经验函数风险函数的最小值，贝叶斯估计所使用的算法是求取参数的后验分布，然后计算其期望。定义B为取值为0或1的随机变量，并设B...
复制链接

扫一扫

专栏目录