[python]比较文章相似度

最新推荐文章于 2024-06-30 03:53:57 发布

M2kar

最新推荐文章于 2024-06-30 03:53:57 发布

阅读量5.2k

点赞数 4

分类专栏：我的小笔记文章标签： python

本文链接：https://blog.csdn.net/still_night/article/details/78998659

版权

import jieba.posseg as pseg
import jieba
import jieba.analyse
import codecs
import math

设置待比较的几篇文章

files=[
    './sample/a1.txt',
    './sample/a2.txt',
    './sample/b1.txt',
    './sample/a3.txt',
]
texts=[codecs.open(file,'r','utf8').read() for file in files]

词频统计

from collections import Counter
def analyse_count(text,n=20):
    words=jieba.cut(text)
    words=[each.strip() for each in words]
    counter=Counter(words)
    for a in counter.most_common(n):
        print('%-10s\t%d' % (a[0],a[1]))
    print('\n')

for i in range(len(texts)):
    print("%s 词频统计\n======================"%files[i])
    analyse_count(texts[i])

./sample/a1.txt 词频统计
======================
，           74
的           62
            4

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

M2kar

关注关注

4
点赞
踩
32

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

jieba 计算2个句子的文本相似度（Python实现）

给我一点温度

07-21

6407

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。 github 参考链接：https://github.com/ZhanPwBibiBibi/CHlikelihood # -*- coding: utf-8 -*- import jieba import numpy as np import re def get_word_vector(s1,s2): """ :pa..

python jieba 文本相似度_文本相似度分析（基于jieba和gensim）

weixin_39648430的博客

12-17

2523

##基础概念本文在进行文本相似度分析过程分为以下几个部分进行，文本分词语料库制作算法训练结果预测分析过程主要用两个包来实现jieba，gensimjieba:主要实现分词过程gensim：进行语料库制作和算法训练##结巴(jieba)分词在自然语言处理领域中，分词和提取关键词都是对文本处理时通常要进行的步骤。用Python语言对英文文本进行预处理时可选择NLTK库，中文文本预处理可选择jieba库...

4 条评论您还未登录，请先登录后发表或查看评论

08-10

这个包提供了一组函数来度量网页之间的相似度

Python - 中文文本相似度计算与模糊匹配

BITDDD小栈

12-27

4291

Python 中文文本相似度计算与模糊匹配。

python 用同义词词库

最新发布

weixin_40620623的博客

06-30

jieba库及判断类型是否一致

hn_nh的博客

05-17

271

jieba库一个优秀的中文分词第三方库有精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词 jieba.lcut 例： jieba.lcut('中国是一个伟大的国家') ->>['中国', '是', '一个', '伟大', '的', '国家'] 全模式：把文本所有可能的词语扫描出来，有冗余例： s = '中国是一个伟大的国家' print(jieba.lcut(s, cut_all=True)) ->>['中国', '国是', '一个',

Python3功能篇七：如何计算两个中文语句的相似度？

Leisure_ksj的博客

12-09

7097

记录一下，方便以后翻阅~ 开发环境：PyCharm2019.2.3 社区版 Python版本：3.8 主要代码如下： # -*- coding: utf-8 -*- # 作者：闲人Ne # 格言：学到就要教人，赚到就要给人 # 描述：计算两个中文语句的相似度，这里给出四种方法 # 日期: 2020年12月09日 import jieba # jieba分词 import difflib # 方法一：Python自带标准库计算相似度的方法，可直接

Python代码实现余弦相似度（文本相似度算法）

04-19

余弦相似度算法

毕业设计：python文本相似度计算系统（源码 + 数据库 + 说明文档）

06-10

毕业设计：python文本相似度计算系统（源码 + 数据库 + 说明文档）第二章可行性分析 7 2.1 业务流程可行性分析 7 2.2 经济可行性 7 2.3 技术可行性 8 2.4 运行可行性 8 第三章需求分析 8 3.1 文本相似度的应用 8 ...

python文本数据相似度的度量

12-24

本篇文章将深入探讨几种常见的相似性度量方法，包括编辑距离、N元语法相似度、Jaccard相似性、Masi距离以及余弦相似度。 1. **编辑距离（Edit Distance）** 编辑距离，又称Levenshtein距离，是衡量两个字符串之间...

python 比较2张图片的相似度的方法示例

09-18

均值哈希算法是一种简单且快速的图像相似度比较方法。它通过以下步骤将图片转化为可比较的哈希值： - **缩放图片**：首先，将图片缩小到8x8像素，以减少计算复杂性，同时保留主要结构。 - **灰度化**：将彩色图片...

短期负荷预测中选择相似日的探讨_莫维仁

01-12

帮助理解预测不同的方法，提供一种全新的预测思想。有主理解和学习预测中所需考虑的各种因素。

基于词林和知网的词语相似度计算python源代码--最新算法

03-09

Python实现文本相似度比较分析

Zhangguohao666的博客

01-19

1万+

创建文档摘要向量之后，可通过比较两个文档摘要向量的距离的方法来判断两个文档的相似度。

Python100个库分享第4个—difflib（文本相似度计算）

weixin_42636075的博客

03-31

802

Python办公自动化专栏。

文本相似度算法的对比及python实现

热门推荐

downdawn

11-01

1万+

文本相似度算法的对比及python实现前言通常我们有这样的需求：对两篇文章或者产品内容进行重复率查询。为了解决类似的问题，罗列了一些常见的相似度算法，用python代码实现。五种常见的相似度算法：余弦相似度（cosine_similarity）、jaccard相似度、编辑距离（Levenshtein）、MinHash、SimHash + 海明距离。代码是一位前辈留下的，做一下整理分享出来...

数据挖掘之比较两个文本的相似度

weixin_42898819的博客

08-09

1万+

文本相似度分析我们这里想看一下某篇论文是否抄袭了别人的论文，就可以通过两篇论文的相似度来分析一下。看看两篇文章的相似度是多少。言归正传，想分析什么还是交给你们吧，我们这里演示一下遮天这本小说的第三章和第一章、第二章的相似度是多少。需要用到下面的模块： jieba分词：不会jieba的朋友可以看看我的另一篇文章https://blog.csdn.net/weixin_42898819...

Python中相似度对比-difflib模块

铁盒薄荷糖的博客

11-02

4275

python中有比较相似度的模块 difflib，相关函数为difflib.SequenceMatcher().quick_ratio()# None参数是一个函数，用来去掉不需要比较的字符。#s1,s2参数为两个需要计算相似度的字符串。语法：SequenceMatcher(计算两个字符串的相似度。

利用Gensim进行Python文档相似度计算实战

本文主要介绍了如何利用Gensim这一强大的Python库来计算两个文档的相似度，特别是在一个在线教育网站的课程推荐系统中的应用。起初，由于缺乏用户评价数据，作者面临了如何找到相似课程的问题。考虑到人工标注的效率...