HAN
输入词向量序列后,通过词级别的Bi-GRU后,每个词都会有一个对应的Bi-GRU输出的隐向量h,再通过
u
w
u_w
uw向量与每个时间步的h向量点积得到attention权重,然后把h序列做一个根据attention权重的加权和,得到句子summary向量s2,每个句子再通过同样的Bi-GRU结构再加attention得到最终输出的文档特征向量v向量,然后v向量通过后级dense层再加分类器得到最终的文本分类结果。模型结构非常符合人的从词->句子->再到篇章的理解过程。
HAN保留了文章的完整结构,attention机制在对于模型的表达能力影响最大,甚至调整模型的L2损失远不如attention的影响大。同时又因为attention机制的可视化,使的HAN的可解释性变得很强。