Hierarchical Attention Network for Document Classification

最新推荐文章于 2023-10-10 13:49:11 发布

Doooer

最新推荐文章于 2023-10-10 13:49:11 发布

阅读量270

点赞数

分类专栏：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YQMind/article/details/84611413

版权

论文笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据：
每个document由多个句子组成，每个句子由多个单词组成。

注意力：
一个文档中，哪些句子可以决定它的分类？句子中，哪些单词比较重要？

模型结构图：
在这里插入图片描述

word层面的注意力机制
对每个句子，进行一样的下列操作。这里我们对第 $i$ 个句子进行处理：
$u_{it} = tanh(W_wh_{it}+b_w)$

$\alpha_{it} = \frac{exp(u_{it}^Tu_w)}{\sum_t exp(u_{it}^Tu_w)}$

$s_i = \sum_t \alpha_{it}h_{it}$

Note: 在实现的时候，只有一个 $W_w$ 和 $u_w$ ，需要进行学习，也就是说，它们作用于每个文档里的每个句子。当以mini-batch形式喂给网络的时候(batchsize, max_sen_length, max_word_len)，先将其reshape成(-1,max_word_len)，再进行上面的公式步骤，当权重归一化的时候，再reshape成(batchsize,max_sen_length)。

sentence层面的注意力机制
对每一个document进行下列操作
$u_i = tanh(W_sh_i + b_s)$

$\alpha_i = \frac{exp(u_i^Tu_s)}{\sum_iexp(u_i^Tu_s)}$

$\sum_i \alpha_ih_i$

Note:同样只有一个 $W_s$ 和 $u_s$ ，需要进行学习。 $v$ 就是最后得到的文档表示，用于分类。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hierarchical Attention Network for Document Classification

数据：每个document由多个句子组成，每个句子由多个单词组成。注意力：一个文档中，哪些句子可以决定它的分类？句子中，哪些单词比较重要？模型结构图：word层面的注意力机制对每个句子，进行一样的下列操作。这里我们对第iii个句子进行处理：uit=tanh(Wwhit+bw)u_{it} = tanh(W_wh_{it}+b_w)uit=tanh(Wwhit+bw)αit...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。