《神经网络与深度学习》第8-9章习题解答

最新推荐文章于 2024-01-10 10:20:02 发布

FrancisQiu

最新推荐文章于 2024-01-10 10:20:02 发布

阅读量2.6k

点赞数 4

分类专栏： learning Machine Learning nndl 文章标签：深度学习神经网络机器学习算法

原文链接：https://www.fr4nc1s.xyz/nndel-exercise-2/

版权

learning 同时被 3 个专栏收录

2 篇文章 2 订阅

订阅专栏

Machine Learning

1 篇文章 0 订阅

订阅专栏

nndl

1 篇文章 0 订阅

订阅专栏

最近忙毕设论文，之前写的第8-9章个人解答也就从自己的私人博客进行转载到CSDN上进行分享，答案的正确性不能完全保证。

第八章

8-1

LSTM输入层的特征长度为 $n$ ，输出层的长度为 $m$ 时，神经元个数为： $Neurons_{all}=4 \times ((n+m)\times m +m)$

去掉偏置项，则为： $Neurons_{no-b}=4\times((n+m)\times m)$ ，而一个神经元内的参数量为： $Weights_{single} =4\times((n+m)\times m)$ ，因此参数总量为： $Weights_{sum}=Weights_{single}\times Neurons_{all}=16 \times[((n+m)\times m)^2+(n+m)\times m^2]$

不考虑偏置项，则： $Weights_{no-b}=Neurons_{no-b}\times Weights_{single} = Neurons_{no-b}^2$

8-2

当输入的向量维度过高时，点积模型的值很大，点积的大小会增大，从而推动 softmax 函数往仅有很小的梯度的方向靠拢，导致了梯度消失。因此使用平方根的缩放，能缓解该问题。

8-3

依赖关系效率：自注意力模型是全连接的，而卷积网络和循环网络是通过增加网络层数，而前者可以处理变长输入序列，因此长距离依赖效率更高。

计算复杂度：自注意力模型查询是通过存储直接查询的，因此计算复杂度为 $O (1)$ ，而卷积网络通过卷积核，计算复杂度为 $O(\log_k(n))$ ，k为卷积核的大小；而循环神经网络通过不同时刻的连接，因此计算复杂度 $O (n)$

8-4

暂时没写，以后再写。

8-5

共同点：都通过外部记忆单元进行读取与写入，而且由控制器进行读写的调用。

不同点：

在读操作时，端到端记忆网络通过多跳操作进行读取数据，而且多跳中的参数是共享的；而神经图灵机在读取时直接基于内容寻址，控制器通过输出 $h_t$ 产生查询向量，并计算读向量，并将读向量当作下一时刻控制器的输入；
在写操作时，端到端记忆网络无写操作其外部记忆单元为只读的；而神经图灵机是可读可写的，写操作包括两个子操作删除和增加，通过输出 $h_t$ 产生删除向量和增加向量，进而写入外部记忆。

8-6

$-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^nw_{ij}s_{i}s_{j}-\sum_{i} b_i s_i = -\frac{1}{2}S^\top WS-B^\top S \\\\ \Delta x_k = s_k(t+1) - s_k(t) \\\\ \begin{aligned} \Delta E_k &= -\frac{1}{2}\sum_{i\not=k}w_{ik}s_{i}\Delta s_k -\frac{1}{2}w_{kj}s_j\Delta s_k - b_k \Delta s_k \\\\ &=-(\sum_{j=1}^nw_{kj}s_j + b_k)\Delta s_k \\\\ &= -u_k\Delta s_k \end{aligned}$

判断发现：
$\begin{cases} u_k>0 && \Delta s_k = s_{k}(t+1) - s_{k}(t)=2 \\\\ u_k<0 && \Delta s_k = s_{k}(t+1) - s_{k}(t)=-2 \end{cases}$
即： $\Delta E_k <0$ 恒成立，因此： $E_k$ 随着时间不断推进总是单调递减的。

第九章

9-1

如果把特征理解为有用的维度，噪声与特征的相关性不大。当数据受到噪声影响时，最小特征值对应的特征向量往往与噪声有关，将它们舍弃能在一定程度上起到降噪的效果。

9-2

证明：在PCA算法中，投影矩阵 $W\in \mathbb{R}^{D\times D'}$ ，当样本 $N < D$ 的时候，实际上 $\Sigma = \frac{1}{N}(X-\overline{X})(X-\overline{X})^\top \ in \mathbb{R}^{D\times N}$ ，因此 $W\in R^{N\times D'}$ ，因此PCA如果需要降低维度，则： $D'\leq N-1$ ，即证。

9-3

不同特征具有共线性的数据不适合使用主成分分析。举例来说,比如对于二分类问题,正例样本全部为(1,1,1,1,1,1), 负例样本全部为(0,0,0,0,0)。

9-4

$X'=X-\overline{X}$ 且 $\sum_{i=1}\limits^N x_i' = 0$ ，则： $\Sigma = \frac{1}{N}X'(X')^\top$ ，而在奇异值分解中： $X'(X')^\top = U\Sigma V^\top V\Sigma U^\top = U\Sigma^2 U^\top=U\Sigma U^\top$ ，因此 $U$ 为协方差矩阵 $\Sigma$ 的特征向量，也是PCA的投影矩阵。

9-5

KNN固定落入单个区域的样本数量为 $K$ ，则每个区域的概率密度为： $P(x)=\frac{K}{NV}$ 。此时， $\int P(x)\mathbb{d}x=1$ ，但需要满足条件 $V\rightarrow 0,N\rightarrow +\infty$ ，因此等号实际并不成立。

9-6

两个公式分别为： $\rho_1 (z) = \sum_{m=1}\limits^{M}\log(1+z_m^2)$ ， $\rho_2(z) = \sum_{m=1}\limits^{M}-\exp(-z_m^2)$

而我们分析稀疏性效果需要看的是： $\frac{\partial L(A,Z)}{\partial Z}\rightarrow \frac{\partial \rho(z)}{\partial z}\rightarrow \frac{\partial \rho(z)}{\partial z_m}$ ，而： $\frac{\partial \rho_1(z)}{\partial z_m} = \frac{2z_m}{1+z_m^2}$ ， $\frac{\partial \rho_2(z)}{\partial z_m} = \frac{2z_m}{\exp(z_m^2)}$

而用Geogebra做图发现显然： $1+z_m^2 \leq \exp(z_m^2)$ ，因此前者导数更大，所以反映的稀疏性更好。

9-7

假设样本有 $N$ 个， $C$ 类中的每个类都有 $N_i$ 个样本。如果想分新的样本 $x$ ，则以 $x$ 为中心画出一个包含 $K$ 个数据点的超球面。超球面的体积为 $V$ ，含有每一类 $C_i$ 的数据点为 $K$ 个。

对于每一个类的条件概率密度为： $P(x|C_i)=\frac{K_i}{N_iV}$ ，非条件概率密度为： $P(x)=\frac{K}{NV}$ ，类的先验概率为： $P(C_i)=\frac{N_i}{N}$ ，结合贝叶斯定理，得到后验概率：
$p(C_i|x) = \frac{p(x|C_i)p(C_i)}{p(x)} = \frac{K_i}{K}$

FrancisQiu

关注

4
点赞
踩
49

收藏

觉得还不错? 一键收藏
4
评论
《神经网络与深度学习》第8-9章习题解答

最近忙毕设论文，之前写的第8-9章个人解答也就从自己的私人博客进行转载到CSDN上进行分享，答案的正确性不能完全保证。第八章8-1LSTM输入层的特征长度为nnn，输出层的长度为mmm时，神经元个数为：Neuronsall=4×((n+m)×m+m)Neurons_{all}=4 \times ((n+m)\times m +m)Neuronsall=4×((n+m)×m+m)去掉偏置项，则为：Neuronsno−b=4×((n+m)×m)Neurons_{no-b}=4\times((n+m)\
复制链接

扫一扫

专栏目录