gensim 中文文本相似度计算

最新推荐文章于 2024-08-05 09:40:05 发布

贾公子

最新推荐文章于 2024-08-05 09:40:05 发布

阅读量3.4k

点赞数 1

分类专栏：相似性计算 Python

本文链接：https://blog.csdn.net/j904538808/article/details/78713864

版权

本文介绍如何利用gensim库处理中文文本，通过TF-IDF和Word2Vec等方法计算文本间的相似度，适用于信息检索、文档分类等场景。

摘要由CSDN通过智能技术生成

# -*- coding: utf-8 -*-
# __jiahuiyu__
import jieba
import logging
from gensim import corpora, models, similarities
from collections import defaultdict


logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)


def a_sub_b(a, b):
    ret = []
    for el in a:
        if el not in b