1. 如何理解梯度下降最后变成了 wk→w′k=wk−η∑j∂CXj∂wk
每次都要递归相减一个,不如直接把一小撮 ∇Cxj 算出来再直接相减。由于概率论,这一小撮随机的 Cxj 可以基本代表所有的,然后再选一小撮,这样递归,性能就能提高不少了。
2. 为什么可以用 σ(wa+b) 来代表 11+exp(−∑jwjxj−b) ?
首先可以理解为 σ(x)=11+exp(−x) 这样我们就只需考虑为什么 wa+b 可以代替 ∑jwjxj−b 了
我们先看 ∑jwjxj−b 。这里x为上个神经元的输出值,也就是这个神经元的输入值,w为与输入值相对的权重。我们把输入到一个神经元中的所有输入值与权重的乘积相加,之后再减去偏移量,实际上就是这个神经元的输出值。
而 wa+b 中, wjk 为当前计算层的第j个与上一层的第k个间的权重,为矩阵 ⎛⎝⎜⎜⎜⎜⎜w11w21w31w41w51w12w22w32w42w52w13w23w33w43w53⎞⎠⎟⎟⎟⎟⎟ 。 ak 为计算层的上一层的矩阵(因为这一层每个神经元必然都会连接到上次层的每个神经元,所以上一层有k个)。为矩阵 ⎛⎝⎜⎜a1a2a3⎞⎠⎟⎟ 。这个例子中计算层有5个神经元,上一层有3个神经元。 w⋅a 得到 ⎛⎝⎜⎜⎜⎜⎜w11a1+w12a2+w13a3w21a1+w22a2+w23a3w31a1+w32a2+w33a3w41a1+w42a2+w43a3w51a1+w52a2+w53a3⎞⎠⎟⎟⎟⎟⎟ 刚好是这一层的5个输出值,可以用于下一层。