原理介绍
相关论文
Hierarchical Attention Networks for Document Classification
Word Encoder:
①给定一个句子si,例如 The superstar is walking in the street,由下面表示[wi1,wi2,wi3,wi4,wi5,wi6,wi1,wi7],我们使用一个词嵌入矩阵W将单词编码为向量
使用双向GRU编码整个句子关于单词wit的隐含向量
Word Attention:
给定一句话,并不是这个句子中所有的单词对个句子语义起同等大小的“贡献”,比如上句话“The”,“is”等,这些词没有太大作用,因此我们需要使用attention机制来提炼那些比较重要的单词,通过赋予权重以提高他们的重要性。
①通过一个MLP获取hit的隐含表示:
②通过一个softmax函数获取归一化的权重:
③计算句子向量:
通过每个单词获取的hit与对应权重αit乘积,然后获取获得句子向量