动手学深度学习第三次打卡,关于深度学习的调优技术

最新推荐文章于 2024-08-02 12:05:09 发布

于北

最新推荐文章于 2024-08-02 12:05:09 发布

阅读量210

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/GONORTHxf/article/details/104500759

版权

批量归一化与残差网络

datawhale和伯禹带领下学习深度学习的最后一次打卡
平台注册

另外我从零基础学习AI的所有笔记均存于我的gitee仓库
知识树
残差网络实现代码demo：

#### 残差网络（ResNet）
class Residual(nn.Module):
    """残差块"""
    #可以设定输出通道数、是否使用额外的1x1卷积层来修改通道数以及卷积层的步幅。
    def __init__(self, in_channels, out_channels, use_1x1conv=False, stride=1):
        super(Residual, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1, stride=stride)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1)
        if use_1x1conv:
            self.conv3 = nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride)
        else:
            self.conv3 = None
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.bn2 = nn.BatchNorm2d(out_channels)

    def forward(self, X):
        Y = F.relu(self.bn1(self.conv1(X)))
        Y = self.bn2(self.conv2(Y))
        if self.conv3:
            X = self.conv3(X)
        return F.relu(Y + X)

### 稠密连接网络（DenseNet）
def conv_block(in_channels, out_channels):
    blk = nn.Sequential(nn.BatchNorm2d(in_channels), 
                        nn.ReLU(),
                        nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1))
    return blk

class DenseBlock(nn.Module):
    """稠密块"""
    def __init__(self, num_convs, in_channels, out_channels):
        super(DenseBlock, self).__init__()
        net = []
        for i in range(num_convs):
            in_c = in_channels + i * out_channels
            net.append(conv_block(in_c, out_channels))
        self.net = nn.ModuleList(net)
        self.out_channels = in_channels + num_convs * out_channels # 计算输出通道数

    def forward(self, X):
        for blk in self.net:
            Y = blk(X)
            X = torch.cat((X, Y), dim=1)  # 在通道维上将输入和输出连结
        return X

def transition_block(in_channels, out_channels):
    """过度层"""
    blk = nn.Sequential(
            nn.BatchNorm2d(in_channels), 
            nn.ReLU(),
            nn.Conv2d(in_channels, out_channels, kernel_size=1),
            nn.AvgPool2d(kernel_size=2, stride=2))
    return blk

凸优化

在这里插入图片描述

梯度下降

在这里插入图片描述

优化算法进阶

Adam算法使用了动量变量 mt 和RMSProp算法中小批量随机梯度按元素平方的指数加权移动平均变量 vt ，并在时间步0将它们中每个元素初始化为0。给定超参数 0≤β1<1 （算法作者建议设为0.9），时间步 t 的动量变量 mt 即小批量随机梯度 gt 的指数加权移动平均。¹

有关算法进阶的内容，这篇博客写的非常透彻

word2vec

词向量模型²
相比于使用 one-hot 向量表示词语，训练好的词向量中能够包含更多语义信息，词向量的维度是可以自由设定的，词嵌入的实现与使用都更方便，但是需要大量的语料进行训练

one-hot 向量只是一个简单的编码，很难包含复杂的语义信息如词语的相似性等，而训练好的词向量则可以从向量的空间关系上去体现词语间的关系，从而蕴含一定的语义信息

用 one-hot 向量表示词语时，为了使每个词语都获得唯一的编码，向量长度至少要与词典大小相当，而词嵌入模型中的词向量维度则没有这个限制（实际上，词嵌入可以看作是对 one-hot 词向量基于语义相似度进行的一个降维操作）

词嵌入模型首先需要在大规模语料库上进行训练，才能得到更有意义的词向量，其次在后续模型的训练过程中，可能还需要进行进一步的模型参数优化，所以在实现和使用上，都是比 one-hot 向量更复杂的

无论是 skip-gram 模型还是 CBOW 模型，都是假设词语的含义是由其周围的单词所决定的，而为了使模型能够“学会”词语的含义，就必须将其置于大规模语料库上进行长时间的训练

词嵌入进阶

主要就是运用词向量模型求近义词和类比词。
可以参考GloVe 模型

文本分类

@这个作者的博客

数据增强与模型微调

增强可以防止过拟合，通常用图像翻转剪裁、颜色变换、图层叠加的方法

对模型微调可以参考这个博客

https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/video/nEYrADXyJYVlXEwYk8XNX#comment-EusGl2ycLw0JgK2yNIMWq ↩︎
https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/quiz/-u_olYAoChO8onz0aQ0gj ↩︎

于北

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
动手学深度学习第三次打卡,关于深度学习的调优技术

批量归一化与残差网络datawhale和伯禹带领下学习深度学习的最后一次打卡平台注册残差网络实现代码demo：#### 残差网络（ResNet）class Residual(nn.Module): """残差块""" #可以设定输出通道数、是否使用额外的1x1卷积层来修改通道数以及卷积层的步幅。 def __init__(self, in_channels, ...
复制链接

扫一扫