CNN在句子相似性建模的应用续--基于attention的多角度CNN模型

最新推荐文章于 2024-06-27 14:43:15 发布

liuchongee

最新推荐文章于 2024-06-27 14:43:15 发布

阅读量8.8k

点赞数 3

分类专栏： nlp 深度学习卷积神经网络-CNN TensorFlow 深度学习与NLP--论文笔记和TensorFlow实现文章标签： cnn nlp tensorflow 句子相似度

本文链接：https://blog.csdn.net/liuchonge/article/details/65451608

版权

本文介绍了UMD-TTIC-UW在SemEval-2016 Task 1中的方法：Attention-Based Multi-Perspective Convolutional Neural Networks用于文本相似度测量。相较于MPCNN，该模型在embedding层和Multi-Perspective层间加入Attention层，通过融合两个句子的词嵌入以捕获更多信息。模型通过计算注意力矩阵和权重向量，生成结合两个句子信息的词向量，提高句子相互关系的表征能力。最后，文章提到了使用TensorFlow实现该模型的细节。

摘要由CSDN通过智能技术生成

今天我们来介绍一下“UMD-TTIC-UW at SemEval-2016 Task 1: Attention-Based
Multi-Perspective Convolutional Neural Networks for Textual Similarity
Measurement”这篇论文。其实本篇论文和之前所说的Multi-Perspective CNN原理是一样的。只不过做了一些小的改进。接下来，我们来讲一下。
首先看一下让他的模型架构，其实就是在embedding层和Multi-Perspective句子建模层之间加入了一个Attention-Based输入层：
这里写图片描述
这么做的原因在于，MPCNN模型中，两个句子被相互独立的处理，直到full-connected层二者的信息才有了交互，这样会丢失很多有用的信息。而Attention-based层通过对两个句子的词嵌入矩阵进行融合，获得的新的“词向量”具有二者的信息，可以更好的表征句子的相互关系。其计算方法如下所示：
1，计算attention matrix D（m*n维矩阵，m和n分别代表sent1和sent2的长度）。
Dij代表sent1中第i个单词的词向量与sent2中第j个单词的词向量的余弦距离
2，计算每个句子的attention weight vector Ai（长度为对应句子长度）。其计算方法为：

最低0.47元/天解锁文章

liuchongee

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
8
评论
CNN在句子相似性建模的应用续--基于attention的多角度CNN模型

今天我们来介绍一下“UMD-TTIC-UW at SemEval-2016 Task 1: Attention-Based Multi-Perspective Convolutional Neural Networks for Textual Similarity Measurement”这篇论文。其实本篇论文和之前所说的Multi-Perspective CNN原理是一样的。只不过做了一些小
复制链接

扫一扫

专栏目录