HAN模型由paperHierarchical Attention Networks for Document Classification提出,模型结构如下图:
![Hierarchical Attention Networks Hierarchical Attention Networks](https://i-blog.csdnimg.cn/blog_migrate/76dc51696f8be7e5a4eb6888ee95a443.png)
模型自下而上结构如下:Enbedding -> Bidirectional RNN(GRU/LSTM) -> Attention -> Bidirectional RNN(GRU/LSTM) -> Attention -> FullyConnectedLayer -> Sigmoid/Softmax
Word Encoder:
对词汇进行编码,建立词向量。接着用双向 RNN 从单词的两个方向汇总信息来获取单词的注释,因此将上下文信息合并到句子向量中。Word Attention
对每句话的词语进行 Attention 操作,最后每句话都有一个特征向量,可以看做句向量。Sentence Encoder
与 Word E