【自然语言处理】 常见的文本相似度计算方法

本文介绍了自然语言处理中常用的文本相似度计算方法,包括欧几里得距离、余弦距离、Jaccard相似度、汉明距离和最小编辑距离。这些方法在微博热点话题推荐、问答系统、推荐系统等场景中有广泛应用。
摘要由CSDN通过智能技术生成

文章来源于:https://zhuanlan.zhihu.com/p/88938220

引言

在自然语言处理中,我们经常需要判定两个东西是否相似。

比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。

在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的问题与题库中的问题进行相似度的比较,最后输出答案。

在推荐系统中,我们需要提取一个用户的所有物品,在根据这个物品找到对应的用户群,比较两个用户之间的相似性,在进行相应的推荐(协同过滤)。

在对语料进行预处理的时候,我们需要给予文本的相似度,把相似度高的重复主题过滤掉。

总之,相似度是一种非常有用的工具,可以帮助我们解决很多问题。

任务目标

一般来说,是比较两个物体(商品,文本。。)之间的相似度。这里的相似度是一个抽象的值,它可以抽象成估计的百分比。

在推荐工程中,计算相似度是为了给用户推送一定量的物品。即把所有的相似度排序,然后选出最高的那几个物品。

人是很容易判断出物品的相似度的,人们会在心里有一个考量。那么程序如何判断呢?

这里呢?

如果是文本分析,它首先就要用到分词技术,然后去掉不必要的词(语气词,连接词。。)。然后对词给一个抽象的量表

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值