第四章前馈神经网络习题

最新推荐文章于 2023-10-29 18:45:32 发布

安悦

最新推荐文章于 2023-10-29 18:45:32 发布

阅读量1.4k

点赞数

文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/weixin_40620694/article/details/103359845

版权

第四章前馈神经网络习题

习题4-1

设损失函数为 $J$ ，则对于第一层的参数 $w^{(1)}$ 更新公式为
$KaTeX parse error: Undefined control sequence: \part at position 9: \cfrac{\̲p̲a̲r̲t̲ ̲J }{\part w^{(1…$
$\sigma$ ， $1-\sigma\in(0,1)$ ， $KaTeX parse error: Undefined control sequence: \part at position 8: \cfrac{\̲p̲a̲r̲t̲ ̲J }{\part \sigm…$ 对于第一层的某个神经元的所有 $w$ 来说是一样的，所以所有 $w$ 的梯度符号全部是一样的，即要么都为正，要么都为负。所以当最优解的 $w$ 中有正有负时，该神经元的 $w$ 都会往一个方向更新，造成“Z”字形折现更新的现象，收敛速度会很慢。s

习题4-2

$$ h=f(W^T\vec{x}+\vec{b})\\ f=max\{0,z\}\\ y=\vec{w}^T\vec{h}+\vec{b} $$

习题4-3

比如，参数的初始化导致一些神经元在开始的时候就无法被激活，参数再迭代中也无法被更新。

又或者一旦这个神经元参数在一次迭代更新中导致wx+b<0，那么就会导致“死亡”。

修正一下ReLU函数，采用带泄露的ReLU作为激活函数
$LeakyReLU=\begin{cases}x&x>0\\\gamma x&x\le0\end{cases}$

习题4-4

$swish(x)=x\sigma(\beta x)\\ (swish(x))'=\sigma(\beta x)+\beta x\sigma(\beta x)(1-\sigma(\beta x))$

习题4-5

如果是全连接神经网洛，则参数数量可以写为
$(L-1)\Big(\cfrac{N-1}{L-1}\Big)\Big(\cfrac{N-1}{L-1}+1\Big)+\cfrac{N-1}{L-1}+1\\=N\Big(\cfrac{N-1}{L-1}+1\Big)$

习题4-6

**题目：**证明通用近似性质对于具有线性输出层和至少一个使用ReLU激活函数的隐藏层组成的前馈神经网络，也都是适用的。

https://arxiv.org/pdf/1505.03654.pdf

证明在这篇论文中有详细证明过程，证明过程太过繁琐，超出我的能力范围。

习题4-7

精确拟合偏置所需的数据通常比拟合权重少得多。每个权重会指定两个变量如何相互作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅控制一个单变量。这意味着，我们不对其进行正则化也不会导致太大的方差。另外，正则化偏置参数可能会导致明显的欠拟合。

习题4-8

可能会出现两种问题

第一，可能会导致正向传播时神经元输出全为零（比如ReLU激活函数），反向传播梯度也全为0，参数无法更新
第二，即使神经元输出不为0（如Sigmoid函数），所有参数初始化为0，也会导致同一层所有神经元在训练期间学习相同的特征

习题4-9

不可以，梯度以指数级减小，增加学习率只是饮鸩止渴。甚至有可能一开始学习率过大，让它在错误的路上一去不复返

安悦

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
第四章前馈神经网络习题

第四章前馈神经网络习题习题4-1设损失函数为JJJ，则对于第一层的参数w(1)w^{(1)}w(1)更新公式为KaTeX parse error: Undefined control sequence: \part at position 9: \cfrac{\̲p̲a̲r̲t̲ ̲J }{\part w^{(1…σ\sigmaσ，1−σ∈(0,1)1-\sigma\in(0,1)1−...
复制链接

扫一扫