自然语言处理中的Attention机制

Shingle_

于 2018-10-14 13:21:29 发布

阅读量1.9k

点赞数 2

分类专栏：自然语言处理深度学习文章标签： nlp deep learning attention seq2seq

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Shingle_/article/details/83046454

版权

本文详细探讨了自然语言处理中Attention机制的优势，如处理可变长度序列和并行化。介绍了Seq2seq模型的Encoder-Decoder框架，并讲解了Learning to Align and Translate的概念。接着，文章阐述了不同类型的Attention，包括硬注意力与软注意力、全局与局部注意力、Feed-forward NN中的注意力、层次注意力以及自我注意力。最后，总结了Attention机制的本质，它是一种查询到键值对的映射，用于捕捉序列内部的依赖关系和结构。

摘要由CSDN通过智能技术生成

Attention in NLP

Advantage:

integrate information over time
handle variable-length sequences
could be parallelized

Seq2seq

Encoder–Decoder framework:

Encoder:

$h_t = f(x_t, h_{t-1})$

$c = q({h_1,...,h_{T_x}})$

Sutskeveretal.(2014) used an LSTM as f and $q ({h_1,··· ,h_T}) = h_T$

Decoder:

$\sum_{t=1}^T p(y_t | {y_1,...,y_{t-1}}, c)$

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。