CS231n作业笔记1.4：随机梯度下降（SGD）

最新推荐文章于 2023-12-19 21:25:14 发布

silent56_th

最新推荐文章于 2023-12-19 21:25:14 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/silent56_th/article/details/53745886

版权

CS231n课程笔记同时被 3 个专栏收录

27 篇文章 14 订阅

订阅专栏

cs231n

26 篇文章 2 订阅

订阅专栏

SVM

4 篇文章 0 订阅

订阅专栏

CS231n简介

详见 CS231n课程笔记1：Introduction。
本文都是作者自己的思考，正确性未经过验证，欢迎指教。

作业笔记

1. 随机梯度下降

这部分是对SVM模型进行随机梯度下降，求取近似最优解。关于随机梯度下降的知识请参考CS231n课程笔记3.2：梯度下降，关于SVM的误差以及梯度计算请参考 CS231n作业笔记1.3：SVM的误差函数以及反向传播（非向量及向量算法）。
实践部分中，作者得到的assignment的linear_classifier.py的部分注释对于X的shape的描述与svm.ipynb中对于其的调用有出路，作者按照svm.ipynb的shape对其进行了更改。
同时实现mini-batch的时候，作者每次随机从训练集中抽取数据，并未保证不同batch之间是否会有覆盖。
随机梯度下降的操作很简单，只需要每次减去gradient*step_size即可。
实现结束后，通过画出Loss-iteration曲线，判断是否收敛。

bindex = np.random.choice(num_train,batch_size)
X_batch = X[bindex]
y_batch = y[bindex]
loss, grad = self.loss(X_batch, y_batch, reg)
loss_history.append(loss)

self.W += -learning_rate * grad

2. 验证集选取超参数

这里采用了固定验证集的做法，而不是常见的交叉验证。
根据Lecture的说法，注意对于多个超参数的组合，不要grid search，而是random search。这样更容易看出趋势，而且不易错过极值点。
首先小iteration、大范围搜索，最后在大iteration、小范围搜索，减少搜索时间。
作图更容易得到趋势，判断下一步搜索方向。

rand_turple = np.random.rand(50,2)
rand_turple[:,0] = rand_turple[:,0]*(learning_rates[1]-learning_rates[0]) + learning_rates[0]
rand_turple[:,1] = rand_turple[:,1]*(regularization_strengths[1]-regularization_strengths[0])+regularization_strengths[0]
for lr,rs in rand_turple:
        svm = LinearSVM()
        svm.train(X_train, y_train, learning_rate=lr, reg=rs,num_iters=2000, verbose=False)
        y_train_pred = svm.predict(X_train)
        train_acc = np.mean(y_train == y_train_pred)
        y_val_pred = svm.predict(X_train)
        val_acc = np.mean(y_train == y_val_pred)
        results[(lr,rs)] = (train_acc,val_acc)
        if (val_acc > best_val):
            best_val = val_acc
            best_svm = svm

silent56_th

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CS231n作业笔记1.4：随机梯度下降（SGD）

CS231n简介详见 CS231n课程笔记1：Introduction。本文都是作者自己的思考，正确性未经过验证，欢迎指教。作业笔记1. 随机梯度下降这部分是对SVM模型进行随机梯度下降，求取近似最优解。关于随机梯度下降的知识请参考CS231n课程笔记3.2：梯度下降，关于SVM的误差以及梯度计算请参考 CS231n作业笔记1.3：SVM的误差函数以及反向传播（非向量及向量算法）。实践部分
复制链接

扫一扫

专栏目录