nndl-复旦-神经网络与深度学习笔记第二章习题

最新推荐文章于 2024-05-08 00:45:08 发布

CHH3213

最新推荐文章于 2024-05-08 00:45:08 发布

阅读量1k

点赞数 2

分类专栏： nndl-神经网络与深度学习随记文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/weixin_42301220/article/details/109829198

版权

nndl-神经网络与深度学习随记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第二章习题

参考资料

若有错误，请大家指正。

习题 2-1 分析为什么平方损失函数不适用于分类问题．

分类问题中的标签，是没有连续的概念的。每个标签之间的距离也是没有实际意义的，所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。假设分类问题的类别是1,2,3 那么对于一个真实类别为2的样本X，模型的分类结果是 1 或 3，平方损失函数得到的结果都一样，显然不适合。

在这里插入图片描述

$解：y_n维数为1*1； w_n和w_n维数为n*1~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~$

$显然：w^Tx_n=x_n^Tw$

$故：R(w)=\frac{1}{2}\sum_{n=1}^{N}{r_n(y_n-x_n^Tw)^2}$

$对R(w)求导并让其为0，得：R(w)=\sum_{n=1}^{N}{-r_nx_n(y_n-x_n^Tw)}=0$

$w^*=(\sum_{n=1}^{N}{(r_nx_nx_n^T)^{-1}}) (\sum_{n=1}^{N}{r_nx_ny_n})$

r(n): 为每个样本都分配了权重，相当于对每个样本都设置了不同的学习率，即，理解成对每个样本重视程度不同。
在这里插入图片描述

$答：\quad 已知：~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda||w||^2\\ 要求：w^*=(XX^T+\lambda I)^{-1}Xy\\ 解：R(w)=\frac{1}{2}(y-X^Tw)^T(y-X^Tw)+\frac{1}{2}\lambda w^Tw\\ 令\frac{\partial R(w)}{\partial w}=0,\quad 得：\\ \frac{\partial R(w)}{\partial w}=-X(y-X^Tw)+\lambda w=0\quad 解得:\\ w^*=(XX^T+\lambda I)^{-1}Xy\\ 得证$

在这里插入图片描述

答：
$已知：\log p(y|X;w,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(y_n;w^Tx_n,\delta^2)}\\ 注：\mathcal{N}(y_n;w^Tx_n,\delta^2)=\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_n-w^Tx_n)^2}{2\delta^2})\\ 目的：w^ML=(XX^T)^{-1}Xy\\ 令\frac{\partial \log p(y|X;w,\delta)}{\partial w}=0,\quad 化简得：\\ \frac{\partial (\sum_{n=1}^{N}{\frac{-(y_n-w^Tx_n)^2}{2\beta}})}{\partial w}=0\\ \frac{\partial \frac{1}{2}||y-X^Tw||^2}{\partial w}=0\\ -X(y-X^Tw)=0\\ \quad得： \\ w^{ML}=(XX^T)^{-1}Xy\\$

在这里插入图片描述

$1)\quad x~~服从~~\mathcal{N}(x_n;\mu,\delta^2):~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \log \mathcal{N}(x_n;\mu,\delta^2)=\log\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x_n-\mu)^2}{2\delta^2})=\frac{1}{2}log\frac{1}{2\pi\delta^2}-\frac{(x_n-\mu)^2}{2\delta^2}\\ 似然函数：~~~\log p(x|\mu,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(x_n;\mu,\delta^2)}=\frac{N}{2}log\frac{1}{2\pi\delta^2}-\sum_{n=1}^{N}{\frac{(x_n-\mu)^2}{2\delta^2}}\\ 令\frac{\partial \log p(x|\mu,\delta)}{\partial \mu}=0,\quad 化简得：\\ \sum_{n=1}^{N}{\frac{x_n}{\delta^2}}=\frac{N\mu}{\delta^2}\\ 故：~~~~\mu^{ML}=\frac{\sum_{n=1}^{N}{x_n}}{N}$
2)
在这里插入图片描述

答：

答：

高偏差原因：
数据特征过少；
模型复杂度太低；
正则化系数λ太大；
高方差原因：
数据样例过少；
模型复杂度过高；
正则化系数λ太小；
没有使用交叉验证；

【注】：单纯增加训练集数目一般不会减小高偏差，但是会减小高方差。

在这里插入图片描述
答：未方便起见，将 $f_D(x)、f^*(x)$ 简化为 $f_D、f^*$
$E_D[(f_D-E_D[f_D]+E_D[f_D]-f^*)^2]\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[(f_D-E_d[f_D])(E_D[f_D]-f^*)]+E_D[(E_D[f_D]-f^*)^2] \\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[f_DE_D[f_D]-f_Df^*-E_D^2[f_D]+E_D[f_D]f^*]+E_D[E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D^2[f_D]-2E_D[f_Df^*]-2E_D^2[f_D]+2E_D[f_D]E_D[f^*]+E_D^2[f_D]-2E_D[f_D]E_D[f^*]+E_D[(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_Df^*]+E[(f^*)^2]\quad\quad\quad\quad$
注意：对于单个样本来说， $f^*$ 为常数，所以 $2E_D[f_Df^*]=2E_D[f_D]f^*$ , $E_D[(f^*)^2]=(f^*)^2$
所以，上述等式化为：
$=E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+(E_D[f_D[x]-f^*)^2\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
得证。

在这里插入图片描述

一元:

“我”、“打了”、“张三”
$x_1=[1, 1, 1]\\ x_2=[1,1,1]$
二元:

“#我”、“我打了”、“打了张三 ”、“张三打了”、“打了我“
$x_1=[1,1,1,1,0]\\ x_2=[0,0,0,1,1]$
三元:

”##我“、”#我打了“、”我打了张三“、”打了张三#“、”张三打了我“、”打了我#“
$x_1=[1,1,1,1,0,0] x_2=[0,0,0,0,1,1]$
词袋模型将文本看作词的集合，不考虑词序信息，不能精确地表示文本信息