网络结构
这里采用简单的单隐层神经网络:输入层有2个神经元;隐层有4个神经元;输出层有2个神经元。隐层采用sigmoid激活函数,输出层采用softmax激活函数。
z1=W1x+b1
h=sigmoid(z1)
z2=W2h+b2
y^=softmax(z2)
softmax输出可以看成预测为每个类别的概率。
梯度
训练目标为最小化负对数似然函数:
J(Θ)=−∑k=1NlogP(y^k)
其中 P(y^k) 表示第 k 个训练样本真实标记对应的预测概率。可以想象,每个样本真实标记对应的预测概率越大,模型越好。
我们现在只考察一个样本,求出在该样本上的梯度。