计算两篇文档的余弦相似度（tfidf）

最新推荐文章于 2023-05-12 18:59:47 发布

VIP文章 kelly131313

最新推荐文章于 2023-05-12 18:59:47 发布

阅读量4.9k

点赞数 1

本文链接：https://blog.csdn.net/kelly131313/article/details/73882955

版权

# -*- coding:utf-8 -*-

"""
@author: Linlifang
"""


import os
import jieba
import sys
import re
import string
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
reload(sys)
sys.setdefaultencoding('utf-8')

'''
首先读取文件夹里的文档，然后通过结巴分词，将分词的结果存入文件，接着使用sklearn包计算每一篇文档的tfidf值
并保存在一个文件里，最后从这些文件中任选两个txt文件来计算他们的余弦相似度。
'''
def getFileList(path):
    filelist = []
    files = os.listdir(path)
    for f in files:
        if f[0] == '.':
            pass
        else:
            filelist.append(f)
    return filelist, path


def segment(filename, path, segPath):
    f = open(path + "/" + filename, 'r+')
    file_list = f.read()
    f.close()

最低0.47元/天解锁文章

优惠劵

kelly131313

关注关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
计算两篇文档的余弦相似度（tfidf）

# -*- coding:utf-8 -*-"""@author: Linlifang"""import osimport jiebaimport sysimport reimport stringfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extract
复制链接

扫一扫