论文翻译/Hierarchical Attention Networks for Document Classification

最新推荐文章于 2023-03-18 10:19:32 发布

随风飘动的小王

最新推荐文章于 2023-03-18 10:19:32 发布

阅读量537

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/weixin_43404454/article/details/89243409

版权

本文提出了一种名为分层注意力网络（Hierarchical Attention Networks, HAN）的新型模型，专用于文档分类。HAN通过层次结构来构建文档表示，同时在单词和句子级别应用注意力机制，从而在构建表示时突出重要信息。实验表明，HAN在多个大规模文本分类任务上显著优于以往方法。注意力层的可视化展示了模型如何选择关键的单词和句子，提高分类性能。" 129978268,5613065,SpringBoot整合Tomcat源码解析,"['后端开发', 'spring boot', 'tomcat']

摘要由CSDN通过智能技术生成

我们提出了一种用于文档分类的分层关注网络我们的模型有两个显着特征：（i）它具有反映文档层次结构的层次结构; （ii）它在单词和句子级别应用了两个级别的注意机制，使其能够在构建文档表示时区别地参与越来越重要的内容。在六个大规模文本分类任务上进行的实验表明，所提出的架构在很大程度上优于以前的方法。注意层的可视化说明该模型选择定性信息的单词和句子。

文本分类是自然语言处理的基本任务之一。目标是为文本指定标签。它具有广泛的应用，包括主题标签（Wang和Manning，2012），情感分类（Maas等，2011; Pang和Lee，2008），以及垃圾邮件检测（Sahami等，1998）。传统的文本分类方法表示具有稀疏词汇特征的文档，例如n-gram，然后在此表示中使用线性模型或核方法（Wang和Manning，2012; Joachims，1998）。最近的方法使用深度学习，例如卷积神经网络（Blunsom等，2014）和基于长短期记忆的复现神经网络（LSTM）（Hochreiter和Schmidhuber，1997）来学习文本表示。

虽然基于神经网络的文本分类方法非常有效（Kim，2014; Zhang等，2015; Johnson和Zhang，2014; Tang等，2015），但在本文中，我们检验了更好表示的假设。可以通过将文档结构的知识结合到模型体系结构中来获得。我们模型的直觉是，并非文档的所有部分都与回答查询同等重要，并且确定相关部分涉及对单词的交互进行建模，而不仅仅是单独存在。我们的主要贡献是新的神经架构（x2），即分层注意网络（HAN），旨在捕获有关文档结构的两个基本见解。首先，由于文档具有层次结构（单词形式句子，句子形成文档），我们同样通过首先构建句子的表示然后将它们聚合成文档表示来构造文档表示。其次，观察到文档中的不同单词和句子具有差异性信息。此外，单词和句子的重要性高度依赖于上下文，即相同的单词或句子在不同的上下文中可能是差异重要的（x3.5）。为了包括对这一事实的敏感性，我们的模型包括两个层次的关注机制（Bahdanau等，2014; Xu等，2015） - 一个在单词级别，一个在句子级别 - 让模型支付更多或者在构造文档表示时对个别单词和句子的关注较少。为了说明，请考虑图1中的示例，这是一个简短的Yelp评论，其任务是按1-5的等级预测评级。直观地说，第一句和第三句在帮助预测评级方面有更强的信息;在这些句子中，单词delicious，a-m-a-z-i-n-g在暗示本评论中包含的积极态度方面做出了更多贡献。注意力有两个好处：它不仅经常带来更好的表现，而且还提供了洞察哪些词和句子对分类决策有贡献，这在应用和分析中是有价值的（Shen et al。，2014; Gao et al 。，2014）。与以前的工作的主要区别在于，我们的系统使用上下文来发现一系列令牌是否相关，而不是简单地过滤上下文中的（序列）令牌。为了评估我们的模型与其他常见分类体系结构的性能，我们查看了六个数据集（x3）。我们的模型显着优于以前的方法。

2分层注意网络
分层注意网络（HAN）的总体结构如图2所示。它由几个部分组成：一个字序列编码器，一个字级关注层，一个句子编码器和一个句子层注意层。我们将在以下部分中描述不同组件的详细信息。

2.1基于GRU的序列编码器
GRU（Bahdanau等，2014）使用门控机制来跟踪序列的状态，而不使用单独的存储器单元