自然语言处理中的Attention机制

本文详细探讨了自然语言处理中Attention机制的优势,如处理可变长度序列和并行化。介绍了Seq2seq模型的Encoder-Decoder框架,并讲解了Learning to Align and Translate的概念。接着,文章阐述了不同类型的Attention,包括硬注意力与软注意力、全局与局部注意力、Feed-forward NN中的注意力、层次注意力以及自我注意力。最后,总结了Attention机制的本质,它是一种查询到键值对的映射,用于捕捉序列内部的依赖关系和结构。
摘要由CSDN通过智能技术生成

Attention in NLP

Advantage:

  • integrate information over time
  • handle variable-length sequences
  • could be parallelized

Seq2seq

Encoder–Decoder framework:

Encoder:

h t = f ( x t , h t − 1 ) h_t = f(x_t, h_{t-1}) ht=f(xt,ht1)

c = q ( h 1 , . . . , h T x ) c = q({h_1,...,h_{T_x}}) c=q(h1,...,hTx)

Sutskeveretal.(2014) used an LSTM as f and q ( h 1 , ⋅ ⋅ ⋅ , h T ) = h T q ({h_1,··· ,h_T}) = h_T q(h1,,hT)=hT

Decoder:

p ( y ) = ∑ t = 1 T p ( y t ∣ y 1 , . . . , y t − 1 , c ) p(y) = \sum_{t=1}^T p(y_t | {y_1,...,y_{t-1}}, c) p(y)=t=1Tp(yty1,...,yt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值