相似度-未完待续

明星海棠果

于 2019-08-11 22:46:43 发布

阅读量317

点赞数

分类专栏： NLP Deep Learning

本文链接：https://blog.csdn.net/u011271476/article/details/99240609

版权

3 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

在自然语言处理过程中，经常会涉及到如何度量两个文本相似度问题，在如对话系统（Dialog system)和信息检索（Information retrieval)等问题中，如何度量句子或短语之间的相似度显得尤为重要。
这里主要对传统方法，词向量，深度学习方法总结。

度量文本相似度方法主要有以下三种：

1. 基于关键词匹配

基于N-gram模型模糊定义的句子相似度是一种模糊匹配方式，通过两个长的相似的句子间的差异性来衡量相似度。

N-Gram相似度的计算是指按长度N切分原句得到词段，

N-Gram 模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。在拼写检查里即是一个字母的出现概率只和前n-1个字母的出现概率相关,并且是前n-1个字母出现概率的乘积。

应用：

在自然语言处理中，最常用也最基础的一个操作就是“模式匹配”， 又叫"字符串查找”。其又分为精确匹配和模糊匹配。

精确匹配：比如我们要统计一篇文章中关键词 “information” 出现的次数，这时所使用的方法就是精确的模式匹配。这类算法比如：KMP算法、BM算法和BMH算法等等。
模糊匹配：基于N-Gram模型定义的句子（字符串）相似度.主要通过两个句子之间的差异性来描述其相似度。
N-Gram相似度的计算是按指定长度N(滑动窗口N)移动切分句子得到词段，即句中所有长度为N的字符串。对两个句子S和T,通过他们共有的子串判断他们的相似度。

$|G_N(S)| + |G_N(T)| - 2*|G_N(S)\bigcap G_N(T)|$

其中, GN(S)和GN(T)分别表示字符串S和T中N-Gram的集合，N一般取2或3。字符串距离越近，它们就越相似，当两个字符串完全相等时，距离为0。

结合上面的公式，即可算得两个字符串之间的距离是8 + 9 − 2 × 4 = 9。显然，字符串之间的距离越小，它们就越接近。当两个字符串完全相等的时候，它们之间的距离就是0。

原理： 两个句子之间的交集与并集比值。该值越大说明相似度越高，在大规模计算时有一定的优势。

$J(A,B)= \frac {|A \cap B|}{|A \cup B|} $

其中， $0<J(A,B)<1$

关于如何表达词意目前有三种方法，

关注

专栏目录