pytorch模型(nn.Module)初始化的影响

最新推荐文章于 2024-06-09 10:36:42 发布

农夫山泉2号

最新推荐文章于 2024-06-09 10:36:42 发布

阅读量2.9k

点赞数 4

分类专栏：深度学习 pytorch 文章标签： pytorch module

本文链接：https://blog.csdn.net/u011622208/article/details/99297179

版权

深度学习同时被 2 个专栏收录

84 篇文章 6 订阅

订阅专栏

pytorch

80 篇文章 3 订阅

订阅专栏

pytorch在定义模型的时候，是继承（nn.Module）类，一般是我们在初始化的时候，将不同的模块都定义好，在forward函数中进行调用，有的时候，在初始化的时候，会初始化一些没有用到的模块，而没有删除，或者在forward函数中没有用到，这样会影响网络的收敛速度。举个例子

第一种：没有将self.attention和self.decoder删掉，forward中也没有使用
这样收敛速度会变慢

class Bert_Ocr(nn.Module):
    def __init__(self, cfg):
        super().__init__()
        self.transformer = Transformer(cfg, cfg.attention_layers)
        self.attention = Parallel_Attention(cfg)
        self.decoder = Two_Stage_Decoder(cfg)
        
    def forward(self, x, mask):
        x1 = self.transformer(x, mask)
        # x_atten = self.attention(x1)
        # glimpses = torch.bmm(x_atten.permute(0, 2, 1), x)

        # res1 = self.decoder(glimpses)
        return x1

>>>
>[500/300000] valid loss: 0.88969 accuracy: 0.000, norm_ED: 29.00
>[1000/300000] valid loss: 0.30434 accuracy: 39.773, norm_ED: 9.86
>[1500/300000] valid loss: 0.14993 accuracy: 70.455, norm_ED: 4.29

第二种：及时在init中删掉不用的模块

class Bert_Ocr(nn.Module):
    def __init__(self, cfg):
        super().__init__()
        self.transformer = Transformer(cfg, cfg.attention_layers)
#         self.attention = Parallel_Attention(cfg)
#         self.decoder = Two_Stage_Decoder(cfg)

    def forward(self, x, mask):
        x1 = self.transformer(x, mask)
        # x_atten = self.attention(x1)
        # glimpses = torch.bmm(x_atten.permute(0, 2, 1), x)

        # res1 = self.decoder(glimpses)
        return x1

>>>
>[500/300000] valid loss: 0.46041 accuracy: 27.273, norm_ED: 14.14
>[1000/300000] valid loss: 0.03799 accuracy: 93.182, norm_ED: 0.86

总结：及时在init中删掉不用的模块

农夫山泉2号

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
8
评论
pytorch模型(nn.Module)初始化的影响

pytorch在定义模型的时候，是继承（nn.Module）类，一般是我们在初始化的时候，将不同的模块都定义好，在forward函数中进行调用，有的时候，在初始化的时候，会初始化一些没有用到的模块，而没有删除，或者在forward函数中没有用到，这样会影响网络的收敛速度。举个例子第一种：没有将self.attention和self.decoder删掉，forward中也没有使用这样收敛速度会变...
复制链接

扫一扫