自然语言处理——文本相似度

最新推荐文章于 2024-08-07 17:50:00 发布

ZNWhahaha

最新推荐文章于 2024-08-07 17:50:00 发布

阅读量3k

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/ZNWhahaha/article/details/105163869

版权

本文探讨了自然语言处理中的文本相似度问题，包括基于关键词匹配的N-Gram和Jaccard相似度，基于向量空间的Word2vec和TF-IDF，以及利用卷积神经网络（CNN）的深度学习方法。随着深度学习的发展，文本相似度检测正逐渐从传统方法转向深度学习。

摘要由CSDN通过智能技术生成

前言

在自然语言处理的学习和研究中，有好多问题涉及到如何检测两个文本的相似度问题，尤其是在度量句子或者短语之间的相似度。测算度量文本相似度的方法大体有三种：基于关键词匹配的传统方法、基于向量空间的方法和利用深度学习进行文本相似度检测的方法。随着近些年深度学习学科的发展，文本相似度的方法逐渐从基于关键词匹配的传统方法转变为深度学习，且结合向量空间和深度学习进行文本相似度检测。

文本相似度算法

基于关键词匹配

基于关键词匹配方法具有代表性的有：N-gram 相似度与Jaccard 相似度

N-Gram相似度

使用N-Gram相似度进行文本相似度匹配是一种模糊匹配方式，关键在于通过两个长的很像的句子之间的差异来度量相似度。
N-Gram相似度计算具体指假设有一个字符串，那么字符串的N-Gram表示为按照长度N切分这个字符串原句得到词段（词段即原句中所有长度为N的子串）。设想如果有两个字符串，然后分别求它们的N-Gram，那么就可以从它们的共有子串的数量这个角度去定义两个字符串间的N-Gram距离。通过N-Gram距离来判断这两个句子的相似程度。即： $Similarity=|G_N(S)| + |G_N(T)|-2 × |G_N(S)\cap G_N(T)|$ 其中， $G_N(S)$ 和 $G_N(T)$ 分别表示字符串S和T的N-Gram集合，当 $S i m i l a r i t y$ 值越低时，两字符串越相似。
N-Gram忽略了两个字符串长度差异可能导致的问题。比如字符串 girl 和 girlfriend，二者所拥有的公共子串数量显然与 girl 和其自身所拥有的公共子串数量相等，但是并不能据此认为 girl 和girlfriend 是两个等同的匹配。