文本相似度计算

最新推荐文章于 2024-10-02 10:53:34 发布

mohana48833985

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量264

点赞数

分类专栏： DataFrame 文章标签：文本相似度文本去重 python simhash

本文链接：https://blog.csdn.net/Caiqiudan/article/details/128485665

版权

DataFrame 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

亲测对于海量计算，采用simhash相似度算法会快很多。
参考：https://blog.csdn.net/wxgxgp/article/details/104146034
https://blog.csdn.net/Trisyp/article/details/113623966

1. 余弦相似度

略。
1. 获得corpus语料库，然后转为向量。
2. 调包计算余弦相似度。

2. simhash相似度

from simhash import Simhash

def simhash_demo(text_a, text_b):
    """
    求text_a和text_b的文本相似度
    """
    a_simhash = Simhash(text_a)
    b_simhash = Simhash(text_b)
    max_hashbit = max(len(bin(a_simhash.value)), len(bin(b_simhash.value)))
    # 汉明距离
    distince = a_simhash.distance(b_simhash)
#     print(distince)
    similar = 1 - distince / max_hashbit
    return similar
    
t1 = ['遨游', 'AI', '专注', '一站式', '游戏']
t2 = ['遨游', 'AI', '专注', '二站式', '游戏13', '放大了发', 'FdafA', '放大上课']
simhash_demo(t1, t2)
>>> 0.6515151

ps：t1可以是分词后的list，也可以是直接一句str字符串。

再DataFrame上应用：输入句子input_t_cut，计算每篇内容与input_t_cut的相似度：在这里插入图片描述

articles['相似度'] = articles['标题内容关键词'].apply(lambda x: simhash_demo(x, input_t_cut))
articles.sort_values('相似度', ascending=False).head(60)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mohana48833985

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

基于WMF_LDA主题模型的文本相似度计算

03-09

文本相似度计算是自然语言处理领域的核心研究课题之一，广泛应用于语言学、心理学、信息理论等多个领域。随着信息科技的发展，文本相似度计算技术的重要性日益凸显，尤其在信息检索、文本聚类、文本摘要生成和文档...

word2vec词向量训练及中文文本相似度计算

01-27

本文主要介绍了Word2Vec词向量训练在中文文本相似度计算中的应用。首先，文章对统计语言模型进行了简单的介绍，指出统计语言模型一般形式是给定一组已知词，求解下一个词的条件概率。然而，这种模型并没有充分利用...

参与评论您还未登录，请先登录后发表或查看评论

【相似度计算】详解文本相似度计算（介绍、公式）

热门推荐

程序星空实验室

06-08

1万+

相似度算法主要任务是衡量对象之间的相似程度，是信息检索、推荐系统、数据挖掘等的一个基础性计算。现有的关于相似度计算的方法，基本上都是基于向量的，也即计算两个向量之间的距离，距离越近越相似。欧几里得度量（euclidean metric）（也称欧氏距离）是一个通常采用的距离定义，指在维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离），在二维和三维空间中的欧氏距离就是两点之间的实际距离。欧氏距离是最常用的距离计算公式，衡量的是多维空间中各个点之间的绝对距离，当数据很稠密并且连续时，这是一种很

python 文本相似度计算

weixin_42087663的博客

07-31

给大家整理了一些有关【Python】的项目学习资料（附讲解～～）：https://edu.51cto.com/course/32441.htmlhttps://edu.51cto.com/course/32207.htmlPython 文本相似度计算入门指南作为一名刚入行的开发者，你可能会遇到需要计算文本相似度的任务...

BERT应用——文本相似度计算

python_plus的博客

06-06

2714

本文展示了如何利用BERT模型计算两个文本字符串之间的余弦相似度。

文本相似度计算python lda_python文本相似度计算

weixin_39910523的博客

12-11

1981

原标题：python文本相似度计算数据挖掘入门与实战公众号： datadw步骤分词、去停用词词袋模型向量化文本TF-IDF模型向量化文本LSI模型向量化文本计算相似度理论知识两篇中文文本，如何计算相似度？相似度是数学上的概念，自然语言肯定无法完成，所有要把文本转化为向量。两个向量计算相似度就很简单了，欧式距离、余弦相似度等等各种方法，只需要中学水平的数学知识。那么如何将文本表示成向量呢？词袋模型...

python文本相似度计算

qq_45099699的博客

07-15

5330

当计算出文本的CountVector后，通过如下几种方法计算文本相似度。CountVector相关计算(8条消息)利用python文章关键信息提取_菜鸟1号——的博客-CSDN博客https以下相似度计算均以此例子进行句子1这只皮靴号码大了，那只号码合适句子2这只皮靴号码不小，那只更合适。...

词向量文本相似度计算

m0_71334725的博客

06-08

1778

为把人们所理解的自然语言让计算机也能够认识并且操作，需要将人的语言（即文字）转换成计算机的语言（即数字）

NLP从零开始------9文本进阶处理之文本相似度计算

m0_74922316的博客

08-07

1593

在自然语言处理中，经常会涉及度量两个文本相似度的问题。在诸如对话系统和信息减速等中，度量句子或短语之间的相似度尤为重要。在新闻学传媒中应用文本相似度可以帮助读者快速检索到想要了解的报道。文本相似度的定义式如下所示：其中，common(A,B)和A和B的共性信息，description(A,B)是描述A和B的全部信息，上式表达出相似度与文本共性成正相关。由于没有限制应用领域，由此此定义被广泛采用。相似度一般可用[0,1]中的实数表示，该实数可通过语义距离计算获得。相似度与语义距离呈负相关。

python 文本相似度计算函数_一文讲述常见的文本相似度计算方法

weixin_39561673的博客

12-06

694

作者 | LU_ZHAO责编 | 徐威龙前言在自然语言处理中，我们经常需要判定两个东西是否相似。比如，在微博的热点话题推荐那里，我们需要比较微博之间的相似度，让相似度高的微博聚集在一起形成一个簇，提出一个主题。在问答系统中，比如说人工客服，我们需要提前准备好问题和一些答案，让用户输入的问题与题库中的问题进行相似度的比较，最后输出答案。在推荐系统中，我们需要提取一个用户的所有物品，在根据这个物品找到...

【基础算法】文本相似度计算

tianyunzqs的专栏

11-30

8059

在自然语言处理中，文本相似度是一种老生常谈而又应用广泛的基础算法模块，可用于地址标准化中计算与标准地址库中最相似的地址，也可用于问答系统中计算与用户输入问题最相近的问题及其答案，还可用于搜索中计算与输入相近的结果，扩大搜索召回，等等。基于此，现将几种常见的文本相似度计算方法做一个简单总结，以便后续查阅，本文所有源码均已上传到github。 1.字符串相似度 字符串相似度指的是比较两个文本相同字符个数，从而得出其相似度。 python为我们提供了一个difflib包用于计算两个文本序列的匹配程度，我们可以将

文本相似度计算数据文本相似度计算数据

04-06

文本相似度计算是自然语言处理领域的一个重要课题，它的主要目标是评估两个或多个文本之间的语义相似程度。在各种应用场景中，如信息检索、问答系统、机器翻译、情感分析等，都离不开文本相似度的计算。下面我们将...

word2vec词向量训练及中文文本相似度计算【源码+语料】

02-18

该资源主要参考我的博客：word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码（从官网下载），自定义爬取的三大百科（百度百科、互动...

一行代码使用BERT生成句向量，BERT做文本分类、文本相似度计算

11-03

标题中的“一行代码使用BERT生成句向量，BERT做文本分类、文本相似度计算”揭示了BERT模型在自然语言处理（NLP）领域的广泛应用。BERT，全称为Bidirectional Encoder Representations from Transformers，是由Google...

（笔记）第三期书生·浦语大模型实战营（十一卷王场）--书生入门岛通关第2关Python 基础知识