1.反向传播:核心为链式法则,通过对一系列中间变量进行简单的求导计算来得到整个复杂函数的梯度
local gradient * upstream gradient:对当前节点求导并将其与上游节点导数相乘,逐渐回传
sigmoid function:
计算图中:加法门的本地梯度是1,故将上游梯度直接分配给两个支流;
乘法门将两个支流的值交换再与上游梯度相乘,进行传递;
最大值门将上游梯度分配给值较大的支流,另一个为零;
ps:注意链式法则计算过程中,同一层上(同一向量)中是相加关系:
2.神经网络:一个复杂的非线性函数
常见的激活函数:
sigmoid:, tanh, ReLU:max(0,x), Leaky ReLU:max(0.1x,x),