【踩了torch.nn.Transformer一个大坑】

从长计议88

已于 2023-05-20 20:01:08 修改

阅读量823

点赞数

文章标签：深度学习 pytorch 人工智能

于 2023-05-20 19:54:42 首次发布

本文链接：https://blog.csdn.net/qq_23117711/article/details/130785016

版权

踩了torch.nn.Transformer一个大坑

介绍
遇到大坑
安装
使用说明

介绍

为了学习，没有使用预训练模型而是使用了torch.nn.Transformer。
随机生成50个词的句子进行翻译。使用torch.nn.Transformer实现。
字典共39个词，[0-9][a-z]每个字符当成一个词。
翻译规则为小写转大写，新数字=9-数字。顺序左右颠倒。译文每0个字符重复。
模型使用方法，输入源语句和译文句子开始标志，预测完整的译文句子。

遇到大坑

如果创建nn.Transformer不传入custom_encoder,custom_decoder,训练不能收敛。
Transformer init()额外创建encoder_norm

 if custom_encoder is not None:
   ....
 else:
   encoder_norm = LayerNorm(d_model, eps=layer_norm_eps, **factory_kwargs)
   self.encoder = TransformerEncoder(encoder_layer, num_encoder_layers, encoder_norm)

TransformerEncoder在最后返回结果再做再一次LayerNorm，训练就不能收敛

        if self.norm is not None:
            output = self.norm(output)

        return output

TransformerDecoder同样问题。最后做了一次正规化就无法完成训练。

修改过的可以完成训练并且经常准确率达100%的写法。

   encoderlayer = nn.TransformerEncoderLayer(word_embeding_dim, number_of_heads, batch_first=True, norm_first=True)
   encoder = nn.TransformerEncoder(encoderlayer, num_layers=num_encode_decode_layers)

   decoderlayer = nn.TransformerDecoderLayer(word_embeding_dim, number_of_heads, batch_first=True, norm_first=True)
   decoder = nn.TransformerDecoder(decoderlayer, num_layers=num_encode_decode_layers)

   #批优先，先正规，encoder,decoder事先建好再转入
    self.tranmodel = nn.Transformer(d_model=word_embeding_dim, nhead=number_of_heads,
                                 batch_first=True, norm_first=True, custom_encoder=encoder,
                                 custom_decoder=decoder)