Neural Networks and Deep Learning 学习笔记(五)

最新推荐文章于 2022-05-14 16:01:54 发布

土逗甜菜

最新推荐文章于 2022-05-14 16:01:54 发布

阅读量614

点赞数 1

分类专栏： TensorFlow 文章标签：深度学习神经网络 tensorflow

本文链接：https://blog.csdn.net/lmw21848/article/details/51731770

版权

TensorFlow 专栏收录该内容

13 篇文章 2 订阅

订阅专栏

1. 如何理解梯度下降最后变成了 $w_k \rightarrow w_k' = w_k-\eta \sum_j \frac{\partial C_{X_j}}{\partial w_k}$

每次都要递归相减一个，不如直接把一小撮 $\nabla C_{x_j}$ 算出来再直接相减。由于概率论，这一小撮随机的 $C_{x_j}$ 可以基本代表所有的，然后再选一小撮，这样递归，性能就能提高不少了。

2. 为什么可以用 $\sigma (wa + b)$ 来代表 $\frac{1}{1 + exp(- \sum_j w_j x_j - b)}$ ?

首先可以理解为 $\sigma(x)=\frac{1}{1+exp(-x)}$ 这样我们就只需考虑为什么 $wa + b$ 可以代替 $\sum_j w_j x_j - b$ 了

我们先看 $\sum_j w_j x_j - b$ 。这里x为上个神经元的输出值，也就是这个神经元的输入值，w为与输入值相对的权重。我们把输入到一个神经元中的所有输入值与权重的乘积相加，之后再减去偏移量，实际上就是这个神经元的输出值。

而 $wa + b$ 中， $w_{jk}$ 为当前计算层的第j个与上一层的第k个间的权重，为矩阵 $\begin{pmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \\ w_{41} & w_{42} & w_{43} \\ w_{51} & w_{52} & w_{53} \end{pmatrix}$ 。 $a_k$ 为计算层的上一层的矩阵(因为这一层每个神经元必然都会连接到上次层的每个神经元，所以上一层有k个)。为矩阵 $\begin{pmatrix} a1 \\ a_2 \\ a_3 \end{pmatrix}$ 。这个例子中计算层有5个神经元，上一层有3个神经元。 $w \cdot a$ 得到 $\begin{pmatrix} w_{11}a_1 + w_{12}a_2 + w_{13}a_3 \\ w_{21}a_1 + w_{22}a_2 + w_{23}a_3 \\ w_{31}a_1 +w_{32}a_2 + w_{33}a_3 \\ w_{41}a_1 + w_{42}a_2 + w_{43}a_3 \\ w_{51}a_1 + w_{52}a_2 + w_{53}a_3 \end{pmatrix}$ 刚好是这一层的5个输出值，可以用于下一层。