HAN（Hierarchical Attention Network）

最新推荐文章于 2022-08-03 10:15:01 发布

一枚小码农

最新推荐文章于 2022-08-03 10:15:01 发布

阅读量1k

点赞数 1

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_25394043/article/details/103990376

版权

NLP 专栏收录该内容

39 篇文章 12 订阅

订阅专栏

本文主要介绍CMU在2016年发表在ACL的一篇论文：Hierarchical Attention Networks for Document Classification及其代码复现。

该论文是用于文档级情感分类（document-level sentiment classification）的，其模型架构如下：

整个网络结构包括四个部分：

　　1）词序列编码器

　　2）基于词级的注意力层

　　3）句子编码器

　　4）基于句子级的注意力层

　　整个网络结构由双向GRU网络和注意力机制组合而成，具体的网络结构公式如下：

词序列编码器

给定一个句子中的单词 $W_{it}$ ，其中 i 表示第 i 个句子，t 表示第 t 个词。通过一个词嵌入矩阵 $W_{e}$ 将单词转换成向量表示，具体如下所示：

$x_{it} = W_{e}w_{it}$

接下来看看利用双向GRU实现的整个编码流程：

最终的 $h_{it} = [ \rightarrow h_{it}, \leftarrow h_{it} ]$

词级的注意力层

注意力层的具体流程如下：

上面式子中， $u_{it}$ 是 $h_{it}$ 的隐层表示， $a_{it}$ 是经 softmax 函数处理后的归一化权重系数， $u_{w}$ 是一个随机初始化的向量，之后会作为模型的参数一起被训练， $s_{i}$ 就是我们得到的第 i 个句子的向量表示。

句子编码器

也是基于双向GRU实现编码的，其流程如下:

公式和词编码类似，最后的 $h_{i}$ 也是通过拼接得到的

句子级注意力层

注意力层的流程如下，和词级的一致

最后得到的向量就是文档的向量表示，这是文档的高层表示。接下来就可以用可以用这个向量表示作为文档的特征

分类

Reference

用于文本分类的多层注意力模型（Hierachical Attention Nerworks）

达观数据曾彦能：如何用深度学习做好长文本分类与法律文书智能化处理

一枚小码农

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

一枚小码农 CSDN认证博客专家 CSDN认证企业博客

码龄10年

97: 原创

5万+: 周排名

120万+: 总排名

29万+: 访问

: 等级

3401: 积分

79: 粉丝

173: 获赞

27: 评论

1000: 收藏

私信

关注

热门文章

分类专栏

NLP 39篇
Neo4j 1篇
Pandas 3篇
Python 1篇
深度学习 8篇
机器学习 13篇
C++ 16篇
数据结构与算法 4篇
MySQL 1篇
深入探索C++对象模型 6篇

最新评论

移动构造函数
qq_40833093: 代码屎一样，变量名都没整明白
为什么bagging降低方差，boosting降低偏差？
weixin_57724293: 讲的很不错
K-Means算法中k值及初始类簇中心点的选取
淮北494: 首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心点，然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点，以此类推，直至选出K个初始类簇中心点。，，应该如何实现了？
Learning to rank学习
子瑜是橘子味: 博主你好想请问你一下就是排序学习中数据集中的feature是什么含义呀以及该如何设置feature
安装python-Levenshtein包时遇到的问题
爱分享的杰克: 成功解决，谢谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。