层次化attention机制用于文档分类
链接: 数据集 提取码: 6cgu
《Hierarchical Attention Network for Document Classification》
—用于文本分类的层次注意力网络
作者:Zichao Yang,Diyi Yang,Chris Dyer,Xiaodong He,Alex Smola,Eduard Hovy
单位:卡耐基梅隆大学,微软研究院
论文来源:ACL 2016
补充:自然语言顶会:ACL
一 论文导读
1.文本分类
2.相关技术
3.前期知识
1.文本分类
文本挖掘:是一个以半结构或者无结构的自然语言文本为对象的数据挖掘,是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在的、有用的规律的过程
文本分类是文本挖掘的一个常见过程
数据类型:
- 非结构化数据
没有固定结构的数据,直接整体进程存储,一般存储为二进制的数据格式,如视频 - 半结构化数据
结构化数据的一种形式,它并不符合关系型数据库等形式关联起来的数据模型结构,但包含相关标记,用来分割语义元素以及对记录和字段进行分层。如.html文件 - 结构化数据
能够用数据或统一的结构加以表示,如关系型数据库中存储的数据
文本分类是自然语言处理的基本任务。目标是将非结构化化文档(例如,评论、电子邮件、帖子、网站内容等)分配给一个或多个类。
文本分类流程:
文本数据获取--》文本预处理--》文本的向量表示--》构造分类器--》模型评估
文本数据的获取涉及爬虫知识
应用:主题识别,情感分析
2.相关技术
信息检索(IR):所有文本分类问题的基础
-
词袋模型
按照词出现的频率表示文本 -
TF-IDF算法
按比率设置词频和逆向文件频率,通过出现的词的相关性来表示文本
出现在一片文档中的词,在其他文档中很少出现,就表示这个词具有代表性,可以用来分类 -
N-gram模型
基于马尔科夫模型,计算一组共同出现的词
分层注意网络:
考虑了以前未考虑的角度
- 信息重要度:并非句子中的每个单词和文档中的每个句子对于理解文档的主要信息同样重要。
- 上下文语境:单词的含义需要根据不同的上下文做出不同的判断。同一个词在不同的语境有不同的含义。
所以本网络加入了:
- 层次结构:利用文档原有的层次结构特性,先使用单词的词向量表示句子,再此基础上以句子向量构建文档的信息表示。
- 注意力机制:引入了Attention机制来处理文档和句子中不同信息具有不同重要程度的问题,文章分别从句子级和文档级两个层次使用Attention机制
3.前期知识
注意力机制
循环神经网络
二 论文精读
1.论文整体框架
2.层次注意力网络
3.实验和结果
4.总结
1.论文整体框架
0.摘要
1.介绍
2.层次注意力网络
3.实验
4.相关工作
5.结论
2.层次注意力网络
网络组成结构:
- word encoder:单词序列编码器
- word attention:单词注意力机制
- sentence encoder:句子编码器
- sentence attention:句子注意力机制
基于GRU的词序列编码器:
- RNN的一个变种,使用门机制来记录序列当前的状态
- 隐藏层状态的计算公式:
- 更新门:
- 候选状态:
- 重置门:
补充:
GRU中只有更新门和重置门
更新门:控制前一状态的信息带入当前状态的程度,值越大,前一状态带入的信息越多
重置门:控制前一状态有多少信息写入当前的候选状态ht上,值越小,前一状态写入的信息越少。
3.实验和结果
4.总结