对BigBird的理解1

1.encoder-decoder
编码器-解码器模型架构
encoder:将现实问题转化成数学问题
decoder:求解数学问题,转化成现实世界的解决方案

缺陷:encoder接受输入,通过一个向量C,decoder产生输出。
不管输入以及输出的长度是什么,这个中间的向量C是固定长度的

对缺陷的补充说明举例:

        将一张800*800的照片压缩成100KB可能还行,比较清晰,但是将3000*3000的照片压缩可能就有点看不下去了 。问题在于:当输入信息太长时,会丢弃一些信息。

2.Seq2Seq:
输入一个序列,得到另一个序列,关键在于输入输出序列的长度是可变的

3,基于1中的缺陷,引入attention机制。

attention模型的特点是不再将encoder的输入编码成一个固定长度的向量,而是编码成一个向量序列。

attention机制优点:

速度快:解决了RNN不能并行的问题,可以像CNN一样并行计算

参数少:比CNN,RNN参数更少,算力要求低

效果好: 长文本信息也能抓住重点记忆。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值