cs231n-svm作业

最新推荐文章于 2024-07-07 13:33:40 发布

那是真的牛皮

最新推荐文章于 2024-07-07 13:33:40 发布

阅读量706

点赞数

分类专栏： cs231n 文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_42186444/article/details/120140271

版权

cs231n 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

cs231n-svm作业

svm

cs231n-svm作业
- 1.基础概念
- - 1.1 向量重构
  - 1.2 种类和样本数
2.非向量化求导和loss

1.基础概念

1.1 向量重构

X_train = np.reshape(X_train, (X_train.shape[0], -1))

这样就设置乘 n* 3073 的二位向量

因为图像的大小为32*32 * 3 =3072的rgb图像，这样就把一张图全部转化为一行

之所以是3073，3073=3072+1

因为 y=wx+b，b是列向量，可以简化为x在最后一列新加一列全1的列向量，这样就可以变成

y=x.w，最后输出n*10

1.2 种类和样本数

num_classes = W.shape[1]
    num_train = X.shape[0]

第一个是预测是哪一种的，第二个是有多少张图片。

2.非向量化求导和loss

2.1svm理解

svm的公司如下

Δ一般设置为1。

公式的含义是，物品的真实值在本次预测中是否比其他的预测远远大于1，如果是的，那么损失就是0.不是，那么就是损失。剩下的是惩罚函数。让参数值越小越好。

2.2svm求loss

loss = 0.0
    for i in range(num_train):
        scores = X[i].dot(W)
        correct_class_score = scores[y[i]]
        for j in range(num_classes):
            if j == y[i]:
                continue
            margin = scores[j] - correct_class_score + 1  # note delta = 1

字面上的意思，这里我们要排除掉本身减去本身会出现1，直接continue。

2.3svm求导

dw与w的外形一样，因为w要根据dw进行梯度更新。

请求到遵循链式法则

[ hhqET0.md.png

当且仅当，这个max成立，才能求导。等价于上面的margin>0。

对于非标签类的w求导。

因为是非标签类就等于（s2-s1）+（s0-s1.）s1是标签。s2，s0是非标签，对s2=w2x。s1=w1x

s0=w0x

我们是要对w求导。对w求导就是对w0，w1，w2求导.

以对w2求导为例，s2-s1，进行对s2求导，因为s2里有w2.

那就是1，s2=w2x，对w2求导那就是x，进行链式符合，复合相乘就是x。

那么

dW[:, j] += X[i]

按列更新。因为w0就是输出为0种类的向量。

对s1的更新同理，不过由于是s2-s1和s0-s1，那么就是对s1求导就是-1，整体对w1求导就是-x

dW[:,y[i]] += -X[i]

整体的代码如下：

num_classes = W.shape[1]
  num_train = X.shape[0]
  loss = 0.0
  h = 0.00001
  hW = W - h
  for i in xrange(num_train):
    scores = X[i].dot(W)
    hscores = X[i].dot(hW)
    correct_class_score = scores[y[i]]
    for j in xrange(num_classes):
      if j == y[i]:
        continue
      margin = scores[j] - correct_class_score + 1 # note delta = 1
      if margin > 0:
        loss += margin
        dW[:,y[i]] += -X[i]
        dW[:, j] += X[i]

  # Right now the loss is a sum over all training examples, but we want it
  # to be an average instead so we divide by num_train.
  loss /= num_train
  dW /= num_train

  # Add regularization to the loss.
  loss += reg * np.sum(W * W)
  dW += 2 * reg * W         # (1)

  return loss, dW

注意不要忘记/num,这是loss更新的方法，再加上惩罚函数求导。

3.向量化求导和求loss

3.1向量化求loss

由上面的思想得知，我们首先要求出n个图像在这10个类上的得分就是n*10的矩阵。

那么，我们首先定义score = x。dot（w），这就是所有的得分。

其次，我们选出正确标签的得分，使用choose’函数，选出正确的分数，并且keepdims，让他保持二维矩阵。

scores_correct = scores[np.arange(num_train), y].T #N by 1

通过使用广播效应，我们可以进行加1，对所有的矩阵元素。

之后使用广播，我们可以把correct变成n*c，同时减去correct。

最后把score标签位置设置为0，并与0比大小，然后进行求和。

 margins[np.arange(num_train), y] = 0.0 
  margins[margins <= 0] = 0.0

最后求和更新loss，整体代码如下：

scores = X.dot(W)  # N by C
  num_train = X.shape[0]
  num_classes = W.shape[1]
  scores_correct = scores[np.arange(num_train), y] #1 by N
  scores_correct = np.reshape(scores_correct, (num_train, 1)) # N by 1
  margins = scores - scores_correct + 1.0 # N by C
  margins[np.arange(num_train), y] = 0.0 
  margins[margins <= 0] = 0.0
  loss += np.sum(margins) / num_train
  loss += 0.5 * reg * np.sum(W * W)

3.2向量和求dw

由上文可知，这是进行复核链式求导，那么我们先对s来进行求导。

由于max（s0-s1）+max（s2-s1），我们可以发现，只有成立时才可以进行求导。

成立时，进行求导，非标签类的s0，s2对本身求导就是1。标签类的s1的系数是-2，

我们可以发现s0+s2+s1=0，求导后的系数和就是-2，可以直接先求非标签类。

这就是对s进行求导

count_matrix = np.zeros(margins.shape)
    count_matrix[margins > 0] = 1 # include j = y_i
    
    count_column = np.sum(count_matrix, axis=1) # include j = y_i
    count_matrix[np.arange(num_train), y] -= count_column # offset

由于是链式求导，s=wx，那么对w求导那就是x，最终就是w’ = s‘。x

s‘是count_matrix 是n * c ，x是n*3073，dw是3073 * c

我们可以用x。t。dot（s’），就行了。

最终代码如下：

 count_matrix = np.zeros(margins.shape)
    count_matrix[margins > 0] = 1 # include j = y_i
    
    count_column = np.sum(count_matrix, axis=1) # include j = y_i
    count_matrix[np.arange(num_train), y] -= count_column # offset

    dW = X.T.dot(count_matrix)
    dW /= num_train
    dW += 2 * reg * W

那是真的牛皮

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
cs231n-svm作业

cs231n-svm作业svmcs231n-svm作业1.基础概念1.1 向量重构1.2 种类和样本数2.非向量化求导和loss2.1svm理解2.2svm求loss2.3svm求导3.向量化求导和求loss3.1向量化求loss3.2向量和求dw1.基础概念1.1 向量重构X_train = np.reshape(X_train, (X_train.shape[0], -1))这样就设置乘 n* 3073 的二位向量因为图像的大小为32*32 * 3 =3072的rgb图像，这样就把一张图
复制链接

扫一扫

专栏目录