# -*- coding:utf-8 -*- """ @author: Linlifang """
import os import jieba import sys import re import string from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer reload(sys) sys.setdefaultencoding('utf-8') ''' 首先读取文件夹里的文档,然后通过结巴分词,将分词的结果存入文件,接着使用sklearn包计算每一篇文档的tfidf值 并保存在一个文件里,最后从这些文件中任选两个txt文件来计算他们的余弦相似度。 ''' def getFileList(path): filelist = [] files = os.listdir(path) for f in files: if f[0] == '.': pass else: filelist.append(f) return filelist, path def segment(filename, path, segPath): f = open(path + "/" + filename, 'r+') file_list = f.read() f.close()