HAN

最新推荐文章于 2023-08-10 22:53:03 发布

Torero_lch

最新推荐文章于 2023-08-10 22:53:03 发布

阅读量2.7k

点赞数 2

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Torero_lch/article/details/82588758

版权

自然语言处理专栏收录该内容

32 篇文章 0 订阅

订阅专栏

NAACL2016论文Hierarchical Attention Network for Document Classification利用分层的注意力机制来构建文本表示向量并用于分类任务，效果很好，作者个人主页http://www.cs.cmu.edu/~zichaoy/。

HAN模型就是分层次的利用注意力机制来构建文本向量表示的方法。

文本由句子构成，句子由词构成，HAN模型对应这个结构分层的来构建文本向量表达；

文本中不同句子对文本的主旨影响程度不同，一个句子中不同的词语对句子主旨的影响程度也不同，因此HAN在词语层面和句子层面分别添加了注意力机制；

分层的注意力机制还有一个好处，可以直观的看出用这个模型构建文本表示时各个句子和单词的重要程度，增强了可解释性；

模型结构：

这篇论文里面使用双向GRU来构建句子表示和文本表示，以句子为例，得到循环神经网络中每个单元的输出后利用注意力机制整合得到句子向量表示（不使用attention时，一般会使用MAX或AVE），过程如下：

按照文中说法，先经过一层MLP得到隐层表示，然后与word level context vector 做点积，各词语得到的结果再经过softmax函数后的结果就是各自的重要程度，即，最后加权和得到句子表示。文本向量的构建与此一致，之后经过全连接层和softmax分类。

上述就是整个HAN的结构了，其中有一点没太理解，的实际意义到底是什么？文中说是word level context vector ，翻译过来就是词语级别的上下文向量0_0，还一个句子里的所有词语共享。文中解释如下图，的内在含义是表示哪个词语是重要的，然后每个词语与它做点积，看看在该向量方向上的乘积大小，貌似好像也说得通。如果是这样，那还有没有其他的用法？抽时间看看文中提到的记忆网络中的用法后再理解一下。

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。