1.把标签y表示为one-hot编码
这点要时刻牢记,在代码中有体现。
one-hot编码:类别对应的分量设置为1,其他分量设置为0。例如“猫”为(1,0,0),“狗”为(0,1,0),“鸡”为(0,0,1)
2.将模型的输出视作概率
o为模型的输出(没有做归一化操作);
y_hat为归一化后的概率。
3.损失函数
yi为独热标签向量。
上面给出的是,梯度为
4.代码
利用cs231n的作业的softmax代码学习。就是对照标记黄色的公式。
def softmax_loss(self,w,x_train,y_train,reg=1e-6):#损失函数
loss=0.0
grad=np.zeros_like(w)#梯度
N=x_train.shape[0]#训练的数据量
out=np.dot(x_train,w)# o:未归一化
out-=out.max(axis=1).reshape(N,1)#防止exp 溢出
out_sum=np.sum(np.exp(out),axis=1)# 求和:exp(o)
loss=np.log(out_sum).sum()-out[range(N),y_train].sum()#记着yi是独热标签向量
loss=loss/N+0.5 * reg * np.sum(w*w)#正则化
#d(loss)/d(out)
count=np.exp(out)/out_sum.reshape(N,1)
count[range(N),y_train]-=1
#d(loss)/d(w)
grad=np.dot(x_train.T,count)
grad=grad/N+reg*w
return loss,grad