[论文解读]Hierarchical Attention Networks for Document Classification

最新推荐文章于 2022-12-31 00:07:35 发布

bobobe

最新推荐文章于 2022-12-31 00:07:35 发布

阅读量1.5k

点赞数

分类专栏： nlp 文章标签： attention text-classification nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bobobe/article/details/81663900

版权

nlp 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

这是2016 ACL的一片论文。本文主要介绍了attention机制在文本分类上的应用。作者提出了分层的attention。

sentence level attention：
每个句子对整篇文章的类别贡献不一样，所以给sentence添加attention机制，可以有权重地选择哪个sentence对文章的贡献。
word level attention：
再细分，每个sentence包含多个word，每个word对sentence的贡献也不一样，所以在word级别再添加一层attention。
Hierarchical Attention Networks（HAN）

最后softmax的输出即为文章的分类。
公式
word level的attention公式：

$^{u}it$ 指当前位置word的编码表示。 $^{u}w$ 是attention机制的共享参数，跟随网络一起训练。 $^{\alpha }it$ 是每个word的attention权重。 $^{s}i$ 是多个word采用attention机制之后组成的sentence表示。

这里也可以看出，attention的作用只是得到各个位置的权重 $^{\alpha }it$ ，最后attention之后的输出的维度和最开始输入的 $^{h}it$ 的维度一样。只不过是把各个位置的 $^{h}it$ 加权输出了。

sentence level的attention公式：
这里写图片描述
$^{u}i$ 是第i个sentence的编码表示， $^{u}s$ 是sentence层的attention共享参数，随网络一起训练， $^{\alpha }i$ 是第i个sentence的attention权重， $^{v}$ 是多个sentence采用attention机制加权之后组成的最后的文档表示。

输出：
这里写图片描述
attention后接一层全连接，然后softmax输出。

损失函数采用负对数似然。

Visualization
图中蓝色颜色深浅表示word level的attention权重，红色颜色深浅表示sentence level的attention权重。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。