Hierarchical Attention Network for Document Classification

数据:
每个document由多个句子组成,每个句子由多个单词组成。

注意力:
一个文档中,哪些句子可以决定它的分类?句子中,哪些单词比较重要?

模型结构图:
在这里插入图片描述

word层面的注意力机制
对每个句子,进行一样的下列操作。这里我们对第 i i i个句子进行处理:
u i t = t a n h ( W w h i t + b w ) u_{it} = tanh(W_wh_{it}+b_w) uit=tanh(Wwhit+bw)

α i t = e x p ( u i t T u w ) ∑ t e x p ( u i t T u w ) \alpha_{it} = \frac{exp(u_{it}^Tu_w)}{\sum_t exp(u_{it}^Tu_w)} αit=texp(uitTuw)exp(uitTuw)

s i = ∑ t α i t h i t s_i = \sum_t \alpha_{it}h_{it} si=tαithit

Note: 在实现的时候,只有一个 W w W_w Ww u w u_w uw,需要进行学习,也就是说,它们作用于每个文档里的每个句子。当以mini-batch形式喂给网络的时候(batchsize, max_sen_length, max_word_len),先将其reshape成(-1,max_word_len),再进行上面的公式步骤,当权重归一化的时候,再reshape成(batchsize,max_sen_length)。

sentence层面的注意力机制
对每一个document进行下列操作
u i = t a n h ( W s h i + b s ) u_i = tanh(W_sh_i + b_s) ui=tanh(Wshi+bs)

α i = e x p ( u i T u s ) ∑ i e x p ( u i T u s ) \alpha_i = \frac{exp(u_i^Tu_s)}{\sum_iexp(u_i^Tu_s)} αi=iexp(uiTus)exp(uiTus)

v = ∑ i α i h i v = \sum_i \alpha_ih_i v=iαihi

Note:同样只有一个 W s W_s Ws u s u_s us,需要进行学习。 v v v就是最后得到的文档表示,用于分类。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值