【CS231n】Spring 2020 Assignments - Assignment1 - Softmax

最新推荐文章于 2022-05-12 09:18:26 发布

Mister_Yu

最新推荐文章于 2022-05-12 09:18:26 发布

阅读量257

点赞数

分类专栏： CS231n 文章标签：深度学习机器学习逻辑回归计算机视觉

本文链接：https://blog.csdn.net/Mister_Yu/article/details/109786877

版权

CS231n 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

前言
一、Implement softmax_loss_naive(W, X, y, reg)
二、Implement softmax_loss_vectorized(W, X, y, reg)
三、Write code that chooses the best hyperparameters
总结

前言

我的作业是在 Google Colaboratory 上完成的，还是挺方便的。

注意：最好听完神经网络中反向传播的课再来做SVM和Softmax，不然求导会把你逼疯！

一、Implement softmax_loss_naive(W, X, y, reg)

逻辑回归分类器（Softmax Classifier）：希望正确类别得到的概率分数接近 1 ；

Softmax 损失函数（常用，也叫多项式逻辑回归）：我们用 softmax 对分数进行转化处理（即不直接使用），并得到正确类别的损失函数是 $- l o g P$ ；公式如下

$L_i = -\ log(\frac{e^{s_{y_i}}}{\sum_{j}{e^{s_j}}})$

综上，损失的计算还是比较简单。先求出分数 Scores，将 Scores 正数化（ $e^S$ ），再将 Scores 归一化，即除以每个数据样本在每个类的得分总和，这样就可以得出概率 P 了。那对于每个数据样本 $X_i$ ， $L_i = -\ log(\frac{e^{s_{y_i}}}{\sum_{j}{e^{s_j}}})$ 。

可是计算梯度 dW 就比较复杂了，因为这个损失函数比较复杂，可以参考下面这篇文章：

多分类器softmax——绝对简单易懂的梯度推导 by 月下花弄影

里面讲得很详细。

下面是代码：

    num_train = X.shape[0]
    num_classes = W.shape[1]
    scores = X.dot(W)
    positive_scores = np.e ** scores
    softmax = positive_scores / np.sum(positive_scores, axis=1).reshape((num_train, 1))

    for i in range(num_train):
      for j in range(num_classes):
        if j == y[i]:
          loss += -np.log(softmax[i][j])
          dW[:, j] += (softmax[i][j] - 1) * X[i]
        else:
          dW[:, j] += softmax[i][j] * X[i]

    loss /= num_train
    loss += reg * np.sum(W*W)

    dW /= num_train
    dW += 2 * reg * W

二、Implement softmax_loss_vectorized(W, X, y, reg)

这题和 SVM 的第二题差不多。损失是比较好求的，比较难的仍然是梯度矩阵。

总体思路是构造出一个矩阵，让它和 X 点乘能够得到 dW 。从上一题中我们可以看到 dW[:, j] 都需要加上 X[i] ，只不过当 j = y[i] 时的系数需要减 1 ，那么很自然的我们先将 softmax 相应的项减去1，再与 X.T 点乘即可得到 dW。当然最后别忘了除以 num_train 以及进行正则化惩罚。

    num_train = X.shape[0]
    num_classes = W.shape[1]
    dim = X.shape[1]
    scores = X.dot(W)
    positive_scores = np.e ** scores
    softmax = positive_scores / np.sum(positive_scores, axis=1).reshape((num_train, 1))

    loss = np.sum((-np.log(softmax))[range(num_train), y])
    softmax[range(num_train), y] -= 1
    dW = X.T.dot(softmax)

    loss /= num_train
    loss += reg * np.sum(W*W)

    dW /= num_train
    dW += 2 * reg * W

三、Write code that chooses the best hyperparameters

这一题的思路跟 SVM 里面的完全一样，想看思路的同学可以看我的上一篇博客。

需要注意的是，我选用的参数都是经过对比、选择最后得出来的，并不是一开始就将 learning_rate_step_size, regularization_strength_step_size, num_iters 这些参数设成这个值的。

其实研究了一下其他同学的代码之后，我尝试了一下，发现不怕耗费时间的同学真的可以将 num_iters 固定成一个比较大的值，这样训练出来的结果会准确很多，对于区间的选择也更精准。

learning_rate_step_size = (1.288000e-06 - 0.5e-7) / 15
regularization_strength_step_size = (4.200000e+04 - 1e4) / 15

lr = 1e-7 - learning_rate_step_size
regularization_strength = 1e4 - regularization_strength_step_size

best_lr = 0.
best_regularization_strength = 0.

for i in range(15):
  lr += learning_rate_step_size
  regularization_strength = 1e4
  for j in range(15):
    regularization_strength += regularization_strength_step_size
    new_softmax = Softmax()
    new_softmax.train(X_train, y_train, learning_rate=lr, reg=regularization_strength, num_iters=700, verbose=False)
    y_train_pred = new_softmax.predict(X_train)
    training_accuracy = np.mean(y_train == y_train_pred)
    y_val_pred = new_softmax.predict(X_val)
    validation_accuracy = np.mean(y_val == y_val_pred)
    if validation_accuracy > best_val:
      best_val = validation_accuracy
      best_softmax = new_softmax
      best_lr = lr
      best_regularization_strength = regularization_strength
    results[(lr, regularization_strength)] = (training_accuracy, validation_accuracy)

# Train best_softmax and update bast_value
best_softmax.train(X_train, y_train, best_lr, best_regularization_strength, num_iters=800, verbose=True)
y_val_pred = best_softmax.predict(X_val)
best_val = np.mean(y_val == y_val_pred)
print('best_lr:', best_lr, 'best_regularization_strength:', best_regularization_strength)

总结

学习CS231n对数学的要求真的蛮高的。

Mister_Yu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【CS231n】Spring 2020 Assignments - Assignment1 - Softmax

文章目录前言一、Implement softmax_loss_naive(W, X, y, reg)二、Implement softmax_loss_vectorized(W, X, y, reg)三、Write code that chooses the best hyperparameters总结前言我的作业是在 Google Colaboratory 上完成的，还是挺方便的。一、Implement softmax_loss_naive(W, X, y, reg)逻辑回归分类器（Softma
复制链接

扫一扫