统计学习方法第六章习题答案

最新推荐文章于 2023-03-17 14:35:31 发布

Brielleqqqqqqjie

最新推荐文章于 2023-03-17 14:35:31 发布

阅读量4.1k

点赞数 3

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/qq_41562704/article/details/99757050

版权

统计学习方法专栏收录该内容

12 篇文章 46 订阅

订阅专栏

习题6.1

题目：确认逻辑斯谛分布属于指数分布族.
答：
先看看指数分布族的定义
在这里插入图片描述
逻辑斯谛回归是广义线性模型的一种，而广义线性模型与最大熵模型都是源于指数族分布。
对于二项逻辑斯蒂回归模型：

$x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}$
$x)=\frac{1}{1+\exp (w \cdot x)}$
（跟上面的指数分布族公式符号不太一样，Y是指数分布族公式符号中的x，x是指数分布族公式符号 $η$ 中的一个参数）

则有模型的分布列为：

$(\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)})^{y}(\frac{1}{1+\exp (w \cdot x)})^{1-y}$

$exp(ylog(\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}) + (1-y)log(\frac{1}{1+\exp (w \cdot x)}))$

取 $\pi(x) = 1+\exp (w \cdot x)$

$exp(ylog(\frac{\pi(x)}{\pi(x)+1}) + (1-y)log(\frac{1}{1+\pi(x)}))$

$exp(ylog(\pi(x)) - log(\pi(x) + 1))$

则有

$h (y) = 1$
$T (y) = y$
$η=log(\pi(x))$
$log(\pi(x) + 1)=log(exp(η)+1)$
得证
对于多项逻辑斯蒂回归模型
（多项的感觉有点问题，大家可以一起讨论哈）
$x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}, \quad k=1,2, \cdots, K-1$
$x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}$
则分布列可以写为
$(\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)})^{f(y)}, \quad k=1,2, \cdots, K$

其中：

$f(y)=\left\{\begin{array}{ll}1, &y=k \\ 0, & y\neq k\end{array}\right.$

$\sum^{K}_{k=1}exp(w_{k}\cdot x) = 1 + \sum^{K-1}_{k=1}exp(w_{k}\cdot x)$
则有 $exp(f(y)log(\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}))$
同理有
$h (y) = 1$
$T (y) = f (y)$
$η=log(\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)})$
$A (η) = 0$

习题6.2

题目：写出逻辑斯谛回归模型学习的梯度下降算法.
对于逻辑斯谛模型，条件概率分布如下：
$x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}$
$x)=\frac{1}{1+\exp (w \cdot x+b)}$
对数似然函数为：
$L(w)=\sum_{i=1}^{N}\left[y_{i}\left(w \cdot x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right)\right]$
（对数似然函数计算在书的79页）
对 $L (w)$ 求 $w$ 的导数
$\frac{\partial L(w)}{\partial w}=\sum_{i=1}^{N}\left[x_{i} \cdot y_{i}-\frac{\exp \left(w \cdot x_{i}\right) \cdot x_{i}}{1+\exp \left(w \cdot x_{i}\right)}\right]$
则
$\nabla L(w)=\left[\frac{\partial L(w)}{\partial w^{(0)}}, \ldots, \frac{\partial L(w)}{\partial w(m)}\right]$
算法流程：
（1）选取初值 $w_{0}$ ，取 $k = 0$
（2）计算 $L(w_{k})$
（3）更新 $w$ ， $w_{(k+1)}=w_{(k)}+\lambda_{k} \nabla L\left(w_{k}\right)$
（4）转（2）同时 $k = k + 1$ ，直到 $L (w)$ 的变化范围在可接受范围内。

习题6.3

题目：写出最大熵模型学习的DFP算法.（关于一般的DFP算法参见附录B）
这个解答可以参考：https://blog.csdn.net/xiaoxiao_wen/article/details/54098476

参考

指数分布族
 指数分布族笔记
 指数分布族相关公式推导

Brielleqqqqqqjie

关注

3
点赞
踩
25

收藏

觉得还不错? 一键收藏
2
评论
统计学习方法第六章习题答案

习题6.1题目：确认逻辑斯谛分布属于指数分布族.答：习题6.2题目：写出逻辑斯谛回归模型学习的梯度下降算法.习题6.3题目：写出最大熵模型学习的DFP算法.（关于一般的DFP算法参见附录B）参考指数分布族...
复制链接

扫一扫