Hierarchical Attention Networks for Document Classification学习笔记
这篇博客是在阅读了 Hierarchical Attention Networks for Document Classification 这篇论文之后所做的总结体会,若有任何不准确的地方,烦请大家斧正。
[TOC]
0. 概述
这篇论文提出了一个用于文本分类的层次化Attention网络。这个模型有两个鲜明的特点:
1. 它有类似于文本层次结构的层次结构。
2. 它有两个层次化的attention机制,分别应用于单词水平和句子水平,使它能够在建立文本表示的时候对不同重要性的内容倾注不同注意力。
这篇论文的主要贡献就在于这个新的神经结构,the Hierarchical Attention Network(HAN)。这个结构是迎合有关文本结构的两种主要观点:
1. 因为文本有分层结构(句子中的单词,文本中的句子),同样地,通过先建立句子的表示,然后再把它们聚合成文本的表示。
2. 文本中不同的单词和句子信息量不同。另外,单词和句子的重要性是高度依赖上下文的,同一个单词或者句子在不同的上下文里可能重要性就不同。因此,该模型包含了两个层次的attention机制——单词和句子。
与前人研究的关键不同在于此系统使用上下文来发现标志序列何时相关,而不是简单的过滤标志(序列),脱离了上下文。
1. HAN网络
HAN的整体结构如下图展示,包含四个部分