《统计学习方法》第一章学习笔记

最新推荐文章于 2022-04-17 10:11:38 发布

gingko00

最新推荐文章于 2022-04-17 10:11:38 发布

阅读量206

点赞数

分类专栏：数据挖掘文章标签：机器学习

本文链接：https://blog.csdn.net/u010652054/article/details/105617816

版权

数据挖掘专栏收录该内容

6 篇文章 0 订阅

订阅专栏

生成模型和判别模型的区别：
生成模型：通过联合概率计算生成值的概率，模型表示为
$P(Y|X)=\frac{P(X,Y)}{P(X)}$
判别模型：直接计算生成值的概率，模型表示为 $P (Y ∣ X)$ 或者是 $f (X)$

习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
统计学习方法三要素：
要素1模型：伯努利模型
设取值为1的概率值 $\theta$ ，则k次观测结果为1的事件可描述为 $P(x_1,x_2...x_n|\theta)=\theta^k\cdot(1-\theta)^{(n-k)}$
要素2策略：对数损失函数，损失函数为 $-logP(x_1,x_2...x_n|\theta)$
要素3算法：
极大似然估计： $argmax\hat{\theta}_{mle}=argmax\theta (logP(x_1,x_2...x_n|\theta))=argmax\theta(klog\theta+(n-k)log(1-\theta))$ (1)
对公式1求极值： $\frac{k}{\theta}-\frac{n-k}{1-\theta}=0$
得到概率 $\theta=\frac{k}{n}$

贝叶斯估计： $P(\theta|x_1,x_2...x_n)=\frac{P(x_1,x_2...x_n|\theta)\cdot P(\theta)}{P(x_1,x_2...x_n)}$
假设参数 $\theta$ 服从参数为a,b的Beta分布， $P(\theta)=\frac{\Gamma(a+b)}{\Gamma(a)\cdot \Gamma(b)}\cdot \theta^{(a-1)}\cdot (1-\theta)^{(b-1)}$
$argmax\hat{\theta}_{mle}=argmax\theta(P(\theta|x_1,x_2...x_n))=argmax\theta(P(x_1,x_2...x_n|\theta)\cdot P(\theta))=argmax\theta(log(\theta^{(a+k-1)}\cdot (1-\theta)^{(b+n-k-1)} ))$ (2)
对公式2求极值，得到 $\theta=\frac{k+a-1}{n+a+b-2}$

1.2通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。
$R_{emp}(\hat f)=\frac{1}{N}\sum_{i=1}^N L(y_i,\hat f(x_i))=-\frac{1}{N}\sum_{i=1}^N P(y_i|x_i)$
$R_{emp}(\hat f)$ 最小化，即 $\sum_{i=1}^N P(y_i|x_i)$ 最大化；极大似然估计即 $\prod_{i=1}^N P(y_i|x_i)$ ,两者等价