自然语言处理(十)

最新推荐文章于 2023-02-24 00:00:00 发布

dayday学习

最新推荐文章于 2023-02-24 00:00:00 发布

阅读量425

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理(十)

本文链接：https://blog.csdn.net/weixin_41781408/article/details/88655783

版权

本文深入探讨基本的Attention原理及其在机器翻译中的应用，然后详细介绍了Hierarchical Attention Networks（HAN）的工作机制，包括词序列编码器、词级和句子级的注意力层，以及它们在文本分类任务中的作用。

摘要由CSDN通过智能技术生成

自然语言处理(十）

1. 基本的Attention原理。
- 1.1模型的介绍
2. HAN的原理（Hierarchical Attention Networks）。

1. 基本的Attention原理。

最基本的seq2seq模型包含一个encoder和一个decoder，通常的做法是将一个输入的句子编码成一个固定大小的state，然后作为decoder的初始状态（当然也可以作为每一时刻的输入），但这样的一个状态对于decoder中的所有时刻都是一样的。
在这里插入图片描述
attention即为注意力，人脑在对于的不同部分的注意力是不同的。需要attention的原因是非常直观的，比如，我们期末考试的时候，我们需要老师划重点，划重点的目的就是为了尽量将我们的attention放在这部分的内容上，以期用最少的付出获取尽可能高的分数；再比如我们到一个新的班级，吸引我们attention的是不是颜值比较高的人？普通的模型可以看成所有部分的attention都是一样的，而这里的attention-based model对于不同的部分，重要的程度则不同。
Attention-based Model其实就是一个相似性的度量，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。严格来说，Attention并算不上是一种新的model，而仅仅是在以往的模型中加入attention的思想，所以Attention-based Model或者Attention Mechanism是比较合理的叫法，而非Attention Model。