4. Attention注意力机制(2017年提出)

注意力机制在2017年提出的,用于解决seq2seq模型中context向量长度限制问题。当输入序列较长时,传统的context向量无法有效存储所有信息,导致精度下降。attention通过利用encoder的所有隐藏层状态,提高了信息利用率,改善了模型性能。
摘要由CSDN通过智能技术生成

 

在seq2seq结构中,encoder把所有的输入序列都编码成一个统一的语义向量context,然后再由decoder解码。

但是由于context包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈,如机器翻译问题,当要翻译的句子比较长时,一个context可能存不了那么多信息,就会造成精度下降。除此之外,如果按照上述方式实现,只用到了编码器的最后一个隐藏层状态,信息利用率低

所以要改进seq2seq结构,最好的切入角度就是:利用encoder所有隐藏层状态解决context长度限制的问题 -- attention

接下来了解一下attention注意力机制基本思路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值