pytorch设置l2正则_pytorch深度学习笔记2

最新推荐文章于 2024-07-27 20:21:33 发布

weixin_39968760

最新推荐文章于 2024-07-27 20:21:33 发布

阅读量321

点赞数

文章标签： pytorch设置l2正则

课程《动手学深度学习PyTorch版》笔记：

伯禹学习平台www.boyuai.com

第一节过拟合/欠拟合、梯度消失/梯度爆炸

重、难点：

优化器中一般只对权重参数设置衰减，而不对偏置参数设置衰减，因为对偏置增加正则不会明显的产生很好的效果。而且偏置并不会像权重一样对数据非常敏感，所以不用担心偏置会学习到数据中的噪声。而且大的偏置也会使得我们的网络更加灵活，所以一般不对偏置做正则化。
网络在训练时，要通过net.eval()将网络设置为改为评估模式，这时候输入X不会对神经元进行dropout，训练时用net.train()改为原本模式
标签偏移可以简单理解为测试时出现了训练时没有的标签

第二节卷积神经网络

重、难点：

输出特征图大小的计算：

2. 1×1 卷积层的作用与全连接层等价，可以用来调节特征图的通道数

3. 两个连续的3×3卷积层的感受野与一个5×5卷积层的感受野相同

4. LeNet的绝大多数参数集都集中在卷积层块部分

5. 下列两行代码是卷积网络进行梯度下降的代码

# 梯度下降

可修改为：

with torch.no_grad():

    conv2d.weight -= lr * conv2d.weight.grad

    conv2d.bias -= lr * conv2d.bias.grad

这里可以通过pytorch的autograd包中关于梯度的反向传播机制来理解：

①对于修改tensor的数值，但是又不希望被autograd记录（即不会影响反向传播），那么我么可以对tensor.data进行操作。

②对于被torch.no_grad():包裹的tensor，在反向传播的过程中，其梯度是不会回传的

第三节语言模型及循环神经网络（RNN）

重、难点：

随机采样中前后批量中的数据是不连续的；
随机采样与相邻采样解释（小罗同学图）：

3. 梯度裁剪后的梯度L2范数小于阈值θ

4. 随机采样中每个样本只包含局部的时间序列信息，因为样本不完整所以每个批量需要重新初始化隐藏状态

5. 当我们再训练网络的时候可能希望保持一部分的网络参数不变，只对其中一部分的参数进行调整；或者值训练部分分支网络，并不让其梯度对主网络的梯度造成影响，这时候我们就需要使用detach()函数来切断一些分支的反向传播；而detach_()将一个Variable从创建它的图中分离，并把它设置成叶子variable，其实就相当于变量之间的关系本来是x -> m -> y,这里的叶子variable是x，但是这个时候对m进行了.detach_()操作

6. 双向循环神经网络前向和后向RNN连结的方式是前向的hiddenstate和后向的hidden_state进行concat

7. 对数据进行padding操作。因为机器翻译模型本质上是一个固定输入长度的Seq2Sqe模型，所以我们需要设置最大的数据长度，如果超出了设定的长度直接把后面的截断，少了的，根据需要进行不同的padding

8. 对于加入了attention的seq2seq模型，decoder仍由encoder的最后一个时间步的hidden state进行初始化

weixin_39968760

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

pytorch设置l2正则_pytorch深度学习 笔记2

第一节 过拟合/欠拟合、梯度消失/梯度爆炸

第二节 卷积神经网络

第三节 语言模型及循环神经网络（RNN）

pytorch设置l2正则_pytorch深度学习笔记2

第一节过拟合/欠拟合、梯度消失/梯度爆炸

第二节卷积神经网络

第三节语言模型及循环神经网络（RNN）