机器学习_初识attention

【1】NLP中有一类问题:给定一段上下文(context),生成一段与context相关的(target)

         eg:翻译/阅读理解/摘要生成

【2】这类问题需要RNN解码,用一个 RNN encoder读入context, 得到一个context vector(RNN的最后一个hidden state);然后另一个RNN decoder以这个hidden state为起始state,依次生成target的每一个单词。

【3】这种做法的缺点是,无论之前的context有多长,包含多少信息量,最终都要被压缩成一个几百维的vector。这意味着context越大,最终的state vector会丢失越多的信息。输入sentence长度增加后,最终decoder翻译的结果会显著变差。

【4】因为context在输入时已知,一个模型完全可以在decode的过程中利用context的全部信息,而不仅仅是最后一个state。这就是attention思想

【5】https://www.zhihu.com/question/36591394

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值