《神经网络与深度学习》第二章习题

最新推荐文章于 2023-07-21 20:21:31 发布

强劲九

最新推荐文章于 2023-07-21 20:21:31 发布

阅读量1k

点赞数

分类专栏：数学人工智能文章标签：神经网络机器学习深度学习概率论线性代数

本文链接：https://blog.csdn.net/weixin_39679367/article/details/107993237

版权

人工智能同时被 2 个专栏收录

35 篇文章 12 订阅

订阅专栏

数学

13 篇文章 2 订阅

订阅专栏

第二章机器学习概述

习题 2-1 分析为什么平方损失函数不适用于分类问题。

解：

平方损失函数为：
$\mathcal{L}\left(y,f(\boldsymbol{x};\theta)\right)=\frac{1}{2}\left(y-f(\boldsymbol{x};\theta)\right)^2 \tag{2.14}$
对于分类问题，例如如果一个分类问题有标签 $[1, 2, 3]$ ，分别代表了 $[r e d, g r e e n, y e l l o w]$ ，假如真实分类是 1, 而被分类到 2 和 3 错误程度应该是一样的, 但是平方损失函数的损失却不相同。

习题 2-2 在线性回归中，如果我们给每个样本 $(\boldsymbol{x}^{(n)}, y^{(n)})$ 赋予一个权重 $r^{(n)}$ ，经验风险函数为

$\mathcal{R}(\boldsymbol{w}) = \frac{1}{2}\sum_{n=1}^{N}r^{(n)}(y^{(n)}-\boldsymbol{w}^\mathrm{T}\boldsymbol{x}^{(n)})^2 \tag{2.91}$

计算其最优参数 $\boldsymbol{w}^*$ ，并分析权重 $r^{(n)}$ 的作用。

解：

$\begin{aligned} \frac{\partial}{\partial{\boldsymbol{w}}}\mathcal{R}(\boldsymbol{w}) & = \frac{1}{2}\sum_{n=1}^{N}r^{(n)}\frac{\partial\left\|\boldsymbol{y}-\boldsymbol{X}^\mathrm{T}\boldsymbol{w}\right\|^2}{\partial\boldsymbol{w}} = 0 \\ \boldsymbol{w}^{*} & = \sum_{n=1}^{N} r^{(n)}\left(\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}}\right)^{-1} \boldsymbol{X} \boldsymbol{y} \end{aligned}$

习题 2-3 证明在线性回归中，如果样本数量 $N$ 小于特征数量 $D + 1$ ，则 $\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}$ 的秩最大为 $N$ 。

解：

矩阵 $\boldsymbol{X}=[\boldsymbol{x}^{(1)},\boldsymbol{x}^{(2)},...,\boldsymbol{x}^{(n)}]$ ，样本数 $N$ 比特征数量 $D + 1$ 还小，故 $\boldsymbol{X}$ 的秩肯定不会超过 $N$ ，而 $rank(\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}})=rank(\boldsymbol{X})$ 故其秩最大也只能是 $N$ 。

这相当于线性方程组的未知数个数大于方程个数，是不存在唯一的非零解的。

习题 2-4 在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘法估计，见公式（2.44）。

解：

$\begin{aligned} \frac{\partial \mathcal{R}(\boldsymbol{w})}{\partial \boldsymbol{w}} &=\frac{1}{2} \frac{\partial\left\|\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right\|^{2}+\lambda\|\boldsymbol{w}\|^{2}}{\partial \boldsymbol{w}} \\ &=-\boldsymbol{X}\left(\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right)+\lambda \boldsymbol{w} \end{aligned}$

令 $\frac{\partial}{\partial{\boldsymbol{w}}}\mathcal{R}(\boldsymbol{w})=0$ 可得：

$-\boldsymbol{X} \boldsymbol{Y}+\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}+\lambda \boldsymbol{w}=0\\ \left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}+\lambda \boldsymbol{I}\right) \boldsymbol{w}=\boldsymbol{X} \boldsymbol{Y}$

即： $\boldsymbol{w}^{*}=\left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}+\lambda \boldsymbol{I}\right)^{-1} \boldsymbol{X} \boldsymbol{y}$ 。

习题 2-5 在线性回归中，若假设标签 $y\sim\mathcal{N}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x},\beta)$ ，并用最大似然估计来优化参数，验证最优参数为公式（2.52）的解。

解：
$\begin{aligned} \log p(\boldsymbol{y}|\boldsymbol{X} ; \boldsymbol{w}, \beta) & = \sum_{n=1}^{N} \log \mathcal{N}\left(y^{(n)} ; \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}^{(n)}, \beta\right) \\ & = \sum_{n=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi \beta}} \exp \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)\right) \\ & = \sum_{n=1}^{N} \log \frac{1}{\sqrt{2 \pi \beta}}+\sum_{n=1}^{N} \log \left(\exp \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)\right) \end{aligned}$
对于等式的第一部分只是一个常数，其对 $\boldsymbol{w}$ 求导为零，所以只看后面的部分。

后面部分可以化简为
$\sum_{n=1}^{N} \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)$

注：在计算机或者说人工智能中，代码上的 $\log$ 通常都是以 $e$ 为底的，即代表 $\ln$ 。

所以，把分母的 $2\beta$ 提出去，最大似然函数对 $\boldsymbol{w}$ 的求导函数又变成了 $-\frac{1}{2\beta}\left\|\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right\|^2$ ，参考最小二乘法可以知道，最优参数为
$\boldsymbol{w}^{ML}=\left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}\right)^{-1} \boldsymbol{X} \boldsymbol{y} \tag{2.52}$

习题 2-6 假设有 $N$ 个样本 $x^{(1)},x^{(2)},...,x^{(N)}$ 服从正态分布 $\mathcal{N}(\mu,\sigma^2)$ ，其中 $\mu$ 未知。1）使用最大似然估计来求解最优参数 $\mu^{ML}$ ；2）若参数 $\mu$ 为随机变量，并服从正态分布 $\mathcal{N}(\mu_0,\sigma_0^2)$ ，使用最大后验估计来求解最优参数 $\mu^{MAP}$ 。

解：（1）问：

与习题 2-5 基本一样，就是变量表示变了
$\begin{aligned} \log p(\boldsymbol{x}|\mu ; \sigma^2) & = \sum_{n=1}^{N} \log \mathcal{N}\left(x^{(n)} ; \mu, \sigma^2\right) \\ & = \sum_{n=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi}\sigma} \exp \left(-\frac{\left(x^{(n)}-\mu\right)^{2}}{2 \sigma^2}\right)\right) \\ & = \sum_{n=1}^{N} \log \frac{1}{\sqrt{2 \pi}\sigma}+\sum_{n=1}^{N}\left(-\frac{\left(x^{(n)}-\mu\right)^{2}}{2 \sigma^2}\right) \end{aligned}$
等式右边的第二项对 $\mu$ 求导，并令其等于零，得 $\mu^{ML}=\boldsymbol{x}$

（2）问：

由贝叶斯公式得参数 $\mu$ 的后验分布为 $p(\mu|\boldsymbol{x};v,\sigma)\propto p(\boldsymbol{x}|\mu;\sigma) p(\mu;v)$ ，两边取对数
$\begin{aligned} \log p(\mu|\boldsymbol{x};v,\sigma) & \propto \log p(\boldsymbol{x}|\mu,\sigma)+\log p(\mu;v) \\ & \propto-\frac{1}{2 \sigma^{2}}\left\|\boldsymbol{x}-\mu\right\|^{2}-\frac{1}{2 v^{2}} \mu^2 \end{aligned}$
对 $\mu$ 进行求导可以解得 $\mu^{MAP}=\frac{v^2}{v^2+\sigma^2}\boldsymbol{x}$ 。

习题 2-7 在习题 2-6 中，证明当 $N\rightarrow\infty$ 时，最大后验估计趋向于最大似然估计。

解：

习题 2-9 试分析什么因素会导致模型出现图 2.6 所示的高偏差高方差情况。

解：

一般来说，高偏差是因为模型欠拟合了，高方差是因为模型过拟合了，如果两个都偏高，那么模型可能出现了问题，或者不能够用来解决给定的问题。

习题 2-11 分别用一元、二元和三元特征的词袋模型表示文本「我打了张三」和「张三打了我」，并分析不同模型的优缺点。

解：

首先这句话可以分为三个词：我 | 打了 | 张三，加上文本的开始 $ 和结束 #。

一元特征：$ | 我 | 打了 | 张三 | #

二元特征：$ | $我 | 我打了 | 打了张三 | 张三#

三元特征：$ | $我打了 | 我打了张三 | 打了张三#

习题 2-12 对于一个三分类问题，数据集的真实标签和模型的预测标签分别为： $[1, 1, 2, 2, 2, 3, 3, 3, 3]$ 和 $[1, 2, 2, 2, 3, 3, 3, 1, 2]$ ，分别计算模型的精确率、召回率、 $\mathcal{F1}$ 值以及它们的宏平均和微平均。

解：
$\boldsymbol{\mathcal{P}}=[\frac{1}{2},\frac{1}{2},\frac{2}{3}] , \boldsymbol{\mathcal{R}}=[\frac{1}{2},\frac{2}{3},\frac{1}{2}] , \boldsymbol{\mathcal{F1}}=[\frac{1}{2},\frac{4}{7},\frac{4}{7}] \\ \, \\ \, \mathcal{P_{macro}}= \frac{5}{9}, \mathcal{R_{macro}}= \frac{5}{9}, \mathcal{F1_{macro}}= \frac{5}{9}$

强劲九

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
《神经网络与深度学习》第二章习题

第二章机器学习概述习题 2-1 分析为什么平方损失函数不适用于分类问题。平方损失函数为：L(y,f(x;θ))=12(y−f(x;θ))2(2.14)\mathcal{L}\left(y,f(\boldsymbol{x};\theta)\right)=\frac{1}{2}\left(y-f(\boldsymbol{x};\theta)\right)^2 \tag{2.14}L(y,f(x;θ))=21(y−f(x;θ))2(2.14)对于分类问题，例如如果一个分类问题有标签 [1,2,3]
复制链接

扫一扫