第四章 前馈神经网络习题
习题4-1
设损失函数为
J
J
J,则对于第一层的参数
w
(
1
)
w^{(1)}
w(1)更新公式为
KaTeX parse error: Undefined control sequence: \part at position 9: \cfrac{\̲p̲a̲r̲t̲ ̲J }{\part w^{(1…
σ
\sigma
σ,
1
−
σ
∈
(
0
,
1
)
1-\sigma\in(0,1)
1−σ∈(0,1),KaTeX parse error: Undefined control sequence: \part at position 8: \cfrac{\̲p̲a̲r̲t̲ ̲J }{\part \sigm…对于第一层的某个神经元的所有
w
w
w来说是一样的,所以所有
w
w
w的梯度符号全部是一样的,即要么都为正,要么都为负。所以当最优解的
w
w
w中有正有负时,该神经元的
w
w
w都会往一个方向更新,造成“Z”字形折现更新的现象,收敛速度会很慢。s
习题4-2
习题4-3
比如,参数的初始化导致一些神经元在开始的时候就无法被激活,参数再迭代中也无法被更新。
又或者一旦这个神经元参数在一次迭代更新中导致wx+b<0,那么就会导致“死亡”。
修正一下ReLU函数,采用带泄露的ReLU作为激活函数
L
e
a
k
y
R
e
L
U
=
{
x
x
>
0
γ
x
x
≤
0
LeakyReLU=\begin{cases}x&x>0\\\gamma x&x\le0\end{cases}
LeakyReLU={xγxx>0x≤0
习题4-4
s w i s h ( x ) = x σ ( β x ) ( s w i s h ( x ) ) ′ = σ ( β x ) + β x σ ( β x ) ( 1 − σ ( β x ) ) swish(x)=x\sigma(\beta x)\\ (swish(x))'=\sigma(\beta x)+\beta x\sigma(\beta x)(1-\sigma(\beta x)) swish(x)=xσ(βx)(swish(x))′=σ(βx)+βxσ(βx)(1−σ(βx))
习题4-5
如果是全连接神经网洛,则参数数量可以写为
(
L
−
1
)
(
N
−
1
L
−
1
)
(
N
−
1
L
−
1
+
1
)
+
N
−
1
L
−
1
+
1
=
N
(
N
−
1
L
−
1
+
1
)
(L-1)\Big(\cfrac{N-1}{L-1}\Big)\Big(\cfrac{N-1}{L-1}+1\Big)+\cfrac{N-1}{L-1}+1\\=N\Big(\cfrac{N-1}{L-1}+1\Big)
(L−1)(L−1N−1)(L−1N−1+1)+L−1N−1+1=N(L−1N−1+1)
习题4-6
**题目:**证明通用近似性质对于具有线性输出层和至少一个使用ReLU激活函数的隐藏层组成的前馈神经网络,也都是适用的。
https://arxiv.org/pdf/1505.03654.pdf
证明在这篇论文中有详细证明过程,证明过程太过繁琐,超出我的能力范围。
习题4-7
精确拟合偏置所需的数据通常比拟合权重少得多。每个权重会指定两个变量如何相互作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅控制一个单变量。这意味着,我们不对其进行正则化也不会导致太大的方差。另外,正则化偏置参数可能会导致明显的欠拟合。
习题4-8
可能会出现两种问题
-
第一,可能会导致正向传播时神经元输出全为零(比如ReLU激活函数),反向传播梯度也全为0,参数无法更新
-
第二,即使神经元输出不为0(如Sigmoid函数),所有参数初始化为0,也会导致同一层所有神经元在训练期间学习相同的特征
习题4-9
不可以,梯度以指数级减小,增加学习率只是饮鸩止渴。甚至有可能一开始学习率过大,让它在错误的路上一去不复返