文本相似度度量

最新推荐文章于 2024-07-21 02:53:08 发布

Fang Suk

最新推荐文章于 2024-07-21 02:53:08 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签：文本相似度度量

原文链接：https://zhuanlan.zhihu.com/p/88938220

版权

机器学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

在这里插入图片描述

文本相似度度量就是衡量两个文本相似度的算法。主要包括两个步骤：将文本表示为向量（文本表示）；衡量两个向量的相似度（相似度度量）。

1 文本表示

文本表示也包括两部分：文本切分粒度（按什么粒度切分得到文本特征），如何构造特征（如何将文本特征转化成数值特征）。

1.1 文本切分粒度

可以按照字，词，n-gram对文本进行切分；当文本是长文本时，也可以利用主题模型提取关键词，来减少词的维度。

1.2 文本特征构建

特征构建就是如何将词袋模型中的词转化成向量表示。可以用one-hot，对应位置的权重可以是TF或者是TF-IDF。也可以用分布式表示word2vec。或者是google发布的simhash。

simhash:

google发布的初衷是解决亿万级别的网页去重任务。通常用于长文本，降维将长文本压缩至几个关键词表示（如取TF-IDF权重大的top k个词）。然后将关键词编码成固定长度的二进制字符串。用固定长度的编码来表示一篇文章。

2 相似度度量

（1）欧式距离
$L(x_1,x_2)=\sqrt{(x_1-x_2)^2}$
（2）余弦距离

用两个向量夹角的余弦值来衡量距离。
$L(x_1,x_2)=\frac{x_1\cdot x_2}{|x_1||x_2|}$
（3）杰卡德距离
$L(A,B)=\frac{|A\bigcup B|}{|A\bigcap B|}$
（4）海明距离

海明距离主要用于simhash算法。

海明距离是用特征各维度不相等的个数来衡量差异性。

（5）最小编辑距离

字符串A不断增删改直至与字符串B相等，所需要的最少修改次数作为距离的度量。一般用动态规划来求解

参考：

[1]知乎：常见文本相似度计算方法简介

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。