深度学习-T5

一、T5的网络结构和流程

T5模型和原始的Transformer结构基本一致,具体的做了如下几点改动:

  1. 简化了Layer normalization,其中激活只是重新调整,没有添加附加偏差。

  2. 使用了简化的相对位置embedding,即每个位置对应一个数值而不是向量,原来的Transformer采用sin/cos习得position embeddings,而T5将(key和query)相对位置的数值加在attention softmax之前的logits上,每个head的有自己的position embeddings,所有的层共享一套position embeddings,每一层都计算一次,让模型对位置更加敏感。

 二、T5的预训练过程

T5对预训练目标进行了大范围搜索,总共四个层面来进行比较。

1、高层次方法对比,总共三种方法:

prefix language modeling,从左到右顺序预测

bert-sytle,效果最好

deshuffling,将文本打乱,然后还原

 2、对文本一部分进行破坏时的策略,也分三种方法:

masked法,将被破坏的token替换成特殊字符,如[M]

replace space法,把mask法中相邻[M]都合成一个特殊符,每一小段替换一个特殊符,提高计算效率,效果最好

drop法,没有替换操作,直接随机丢弃一些字符

3、探索对文本进行多大程度的破坏,挑了 4 个值:10%,15%,25%,50%,最后发现还是BERT的15%效果最好

4、 Replace Spans需要决定对大概多长的小段进行破坏,于是对不同长度进行探索:2,3,5,10这四个值,最后发现Span length=3时的效果最好

此时就获得了完整的 T5 模型及其训练方法:

transformer encoder-decoder架构;bert-style破坏方法;replace spans的文本破坏策略;15%的文本破坏比;Replace Spans破坏时小段长度为3。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值