前言:
如果需要对基础概念不了解,可以参考这里。我汇总了论文中涉及的大部分概念,以便更好的理解论文。
目录
NLP十大Baseline论文简述(一) - Word2vec
NLP十大Baseline论文简述(五) - chartextcnn
NLP十大Baseline论文简述(六) -fasttext
NLP十大Baseline论文简述(七) - deep_nmt
NLP十大Baseline论文简述(八) - attention_nmt
NLP十大Baseline论文简述(九) - han_attention
1. Paper:
Hierarchical Attention Networks for Document Classification
使用层次注意力网络做文档分类
2. 背景介绍
- 文本分类是自然语言处理的基础任务之一,近期的研究者逐渐开始使用基于深度学习的文本分类模型
- 虽然基于深度学习的文本分类模型取得了非常好的效果,但是它们没有注意到文档的结构,并且没有注意到文档中不同部分对于分类的影响程度不一样
- 为了解决这一问题,我们提出一种层次注意力网络来学习文档的层次结构,并且使用两种注意力机制学习基于上下文的结构重要性。
- 我们的工作和前人工作的主要区别是我们使用上下文来区分句子和单词的重要性,而不是仅仅使用单个句子或者单个的词。
3. 论文摘要
We propose a hierarchical attention networkfor document classification. 本文提出了一个用于文档分类的分层注意网络。
Our model hastwo distinctive characteristics: (i) it has a hier-archical structure that mirrors the hierarchicalstructure of documents; 我们的模型有两个显著的特点:(1)它具有反映文档层次结构的层次化拱结构;
(ii) it has two levelsof attention mechanisms applied at the word-and sentence-level, enabling it to attend dif-ferentially to more and less important con-tent when constructing the document repre-sentation. (ii)它有两个层次的注意机制应用在单词和句子层面,使它能够在构建文档表示时分别关注更多和更不重要的内容。
Experiments conducted on six largescale text classification tasks demonstrate thatthe proposed architecture outperform previousmethods by a substantial margin. 在六个大规模文本分类任务上进行的实验表明,所提出的体系结构在很大程度上优于先前的方法。
Visualiza-tion of the attention layers illustrates that themodel selects qualitatively informative wordsand sentences. 注意层次的可视化说明,该模型选择了定性信息丰富的单词和句子。
4. 研究成果
- HN-AVE使用平均来处理向量融合
- HN-MAX使用求最大值来处理向量融合
- HN-ATT使用注意力机制处理向量融合
- 在各个数据集上均取得最优的结果
5. 研究意义
HAN Attention历史意义:
- 基于Attention的文本分类模型得到了很多的关注
- 通过层次方式处理长文档的方式逐渐流行
- 推动了注意力机制在非Seq2Seq模型上的使用
6. 论文总结
关键点:
- 之前的深度学习的文本分类没有关注到文档不同部分的信息重要性的不同
- 通过注意力机制可以学习到文档中各个部分对于分类的重要度
- HAN attention模型
创新点
- 提出了一种新的文本分类模型—HAN attention模型
- Attention NMT通过两种级别的注意力机制同时学习文档中重要的句子和单词
- 在六个文本分类数据集上取得sota的结果
启发点:
- 我们模型背后的直觉是文档不同部分对于问题的重要性不同,而且这部分的重要性还取决于内部的单词,而不仅仅是对这部分单独确定重要性
- 此外,单词和句子的重要性是上下文相关的,同样的词或者句子在不同的上下文情境下重要性也不同