短文本相似度-CNN_SIM

最新推荐文章于 2023-01-17 17:17:56 发布

jp_666

最新推荐文章于 2023-01-17 17:17:56 发布

阅读量1k

点赞数

分类专栏：搜索文章标签：机器学习人工智能自然语言处理数据挖掘深度学习

本文链接：https://blog.csdn.net/jp_666/article/details/112370727

版权

搜索专栏收录该内容

3 篇文章 0 订阅

订阅专栏

原文来自：微信公众号：CS的陋室（chashaoroom）

欢迎关注微信公众号：鸿煊的学习笔记（Techs_AI）

今天和大家分享一篇有关文本相似度的经典文章。Severyn A , Moschitti A . Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks[C]. the 38th International ACM SIGIR Conference. ACM, 2015.

有关实现，幸运地在github上找到了一个方案，大家可以参考，此处我就不谈代码而主要谈论文内容啦：https://github.com/zhangzibin/PairCNN-Ranking

1、目录

文本相似度
论文详解

研究背景
学习排序
主体模型
实验结果与结论

2、文本相似度

先来简单介绍一下文本相似度，文本相似度是NLP下的一个分支问题，用于衡量两段文本的相似度，在搜索、问答、阅读理解等方面有很广泛的应用。传统的简单方法是通过词袋模型求距离来计算，但是这种方式是针对词汇级别的，同义词等都很难识别，而后又有了embedding模型文本句向量求相似度的方法，目前在一些场景其实也有使用，但是仍旧不是最好的方法，主要因为这个相似度的大小无法主观控制，类似的内容"我想吃肯德基"和"我想吃KFC”之类的可能无法直接识别，所以尝试使用监督学习就成了一个重要思路，通过监督学习的方式就能够有效控制相似度的计算。

从这个角度，监督学习实质上是一种人为定义，然后通过构造函数逼近的方式进行计算和转化，此处，我们对一个匹配对，假设为"query-document"，我们可以人为给他们标注一个相似度，例如"0"表示不相似，"1"表示相似，然后就可以把两个文本放入模型中即可进行模型计算，这就是基于监督学习的相似度计算，其实这个思想能用在很多领域，通过构造成监督学习的方式来提升对某个问题的掌控能力，这也是监督学习目前比较流行的一个原因吧。

3、论文详解

3.1 研究背景

文章本身是从LTR(learning to rank)的角度去讨论的，谈及文本相似度的计算，主要讨论了基于句法和语义特征的文本相似度的优缺点，优点在于准确性不错，但是缺点在于对外部知识甚至是知识库的依赖导致运算速度等受到限制，而深度学习的方法则更具优势，结合embedding等方式能降低对外部知识，尤其是结构化知识的依赖。