相似度论文-2015-Multi-Perspective Sentence Similarity Modeling with Convolutional Neural Networks

最新推荐文章于 2024-08-06 15:10:31 发布

YingJingh

最新推荐文章于 2024-08-06 15:10:31 发布

阅读量172

点赞数

分类专栏：相似度论文记录文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Hekena/article/details/127478892

版权

147 篇文章 9 订阅

订阅专栏

27 篇文章 2 订阅

订阅专栏

论文核心

我们首先使用卷积神经网络对每个句子进行建模，该网络在多个层次的粒度上提取特征，并使用多种类型的集合。这个网络模型分为两部分，相似度度量（cosine distance, Euclidean distance, and element-wise difference）和句子语义表示。

深度探索了卷积神经网络在应用中的多种变体，以捕捉更为细粒度的特征，如pool方式，window size等等。

两种过滤器：这些过滤器考虑了每个位置上每个单词嵌入的全部内容，我们称其为整体性过滤器
每个维度的过滤器类似于 "空间卷积 "过滤器，只是我们把每个过滤器限制在一个预先定义的单一维度上。
大致来说，第一个是以整个Word为单位做filter，第二个是以每个Word的每个维度为单位做filter。

定义了三种池化操作：

对于block A，采用以上三种池化类型：
{groupA(wsa, p, sent) : p ∈ {max, min, mean}}
对于block B ,采用两种池化类型：
{groupB (ws b, p, sent) : p ∈ {max, min}}

文中设置了三种window size值，分别为1,2 和无穷。
在这里插入图片描述

很简单的计算similarity的方法，大概就是选择CLS或者把向量展平计算吧。
但是，这是很糙的做法。Flattening might discard useful compositional information for computing similarity

所以，这篇文章提出了一个问题：如何选择合适的信息用于相似度的计算？？错了，是这个：一个重要的考虑是如何确定合适的局部区域进行比较，以便我们能够最好地利用句子表征中的成分信息。
1）是否来自同一构件；2）是否来自具有相同窗口大小的卷积层；3）是否来自同一池化层；4）是否来自底层卷积层的同一滤波器

见下图，算法在论文中。

在这里插入图片描述

在计算时，拼接了两个线性层，log-softmax用于计算最后的相似度分值。激活函数式tanh.

释义识别任务，采用的hinge loss.
语义相关识别任务，采用的是正则化的KL loss

在这里插入图片描述

这算是特征工程的一项吧。是对CNN在句子表征中的多个实验。
除了注意力没有考虑到，差不多全了。

关注