cs231n训练营学习笔记（6）

最新推荐文章于 2022-05-10 16:58:06 发布

就叫荣吧

最新推荐文章于 2022-05-10 16:58:06 发布

阅读量118

点赞数

分类专栏： cs231n

本文链接：https://blog.csdn.net/qq_29843303/article/details/103664844

版权

cs231n 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

跑代码，softmax

最开始，写softmax_loss_naive用循环求loss和gradient

softmax分类器使用交叉熵loss，公式为

编程实现时候稍微利用了广播，10个分数一起算的

for i in range(num_train):
    scores = X[i].dot(W)
    scores -= max(scores)#避免溢出
    scores = np.exp(scores) / np.sum(np.exp(scores))
    loss += - np.log(scores[y[i]])

为什么初始计算出来的loss约等于0.1

因为初始W约等于0，按照公式计算，相当于 $e^{0}/\sum e^{0}=1/10$

求导计算上面的公式，得到梯度，过程很多，但是最后基本上都约掉了

  if j == y[i]:
        dW[:,j] += (qj - 1) * X[i]
      else:
        dW[:,j] += qj * X[i]

qj是log里面那部分

接下来向量化

  scores = X.dot(W)
  scores -= np.max(scores, axis=1, keepdims=True)
  scores = np.exp(scores) / np.sum(np.exp(scores), axis=1, keepdims=True)
  dW = np.copy(scores)
  dW[range(num_train),y] -= 1
  dW = X.T.dot(dW)
  
  loss -= np.log(scores[range(num_train),y])
  loss = np.sum(loss)

这里注意：dW[range(num_train),y]和dW[:,y]并不一样，shape分别是(500,) 和(500, 500)

第一种是每次是第i行和y[i]构成元组，取dW[i,y[i]]，第二种是所有行和y[i]

剩下的部分和svm类似

就叫荣吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cs231n训练营学习笔记（6）

跑代码，softmax最开始，写softmax_loss_naive用循环求loss和gradientsoftmax分类器使用交叉熵loss，公式为编程实现时候稍微利用了广播，10个分数一起算的for i in range(num_train): scores = X[i].dot(W) scores -= max(scores)#避免溢出 score...
复制链接

扫一扫