2021-3-2 整理代码_phpstorm 2021整理代码-CSDN博客

本文链接：https://blog.csdn.net/behunters/article/details/114297202

import jieba
from sklearn.feature_extraction.text import  TfidfVectorizer
import pandas as pd
class TF_IDE():
    #导入文档
    def import_file(self,a,b,file_path0):
        text_list=[]
        for i in range(a,b):
            file_path=str(file_path0)+str(i)+".txt"
            with open(file_path,encoding="UTF-8") as f:
                text=f.read()
                text_list.append(text)
        return text_list
        pass
    #使用结巴
    def text_to_jieba(self,text):
        text_jieba_list=[]
        for i in text:
            text_jieba=jieba.cut(i,cut_all=True)
            text_jieba=" ".join(text_jieba)
            text_jieba_list.append(text_jieba)
        return text_jieba_list

    #导入停用词表
    def import_stop_words(self):
        stop_words_list=[]
        stop_words=self.import_file(1,5,r'D:\源代码检测\中文停用词表\stopwords-master\stop_words')
        for i in stop_words:
            stop_words_=i.split("\n")
            #对停用词表中的词进行遍历
            for j in stop_words_:
                stop_words_list.append(j)
        return stop_words_list

    #生成分析库
    def Tfidf(self):
        vectorizer=TfidfVectorizer(stop_words=self.import_stop_words())
        X=vectorizer.fit_transform(self.text_to_jieba(self.import_file(1,6,r"D:\源代码检测\特征提取文档\text军训心得"))).toarray()
        #查看特征
        X_feature_names=vectorizer.get_feature_names()
        #
        X_pd=pd.DataFrame(X,columns=X_feature_names)
        for i in range(0,5):
            X_sort=X_pd.sort_values(by=i,axis=1,ascending=False)
            print("第",str(i+1),"篇文档的关键词排序:\n",X_sort.iloc[i,:])
        return vectorizer,X_feature_names

    #测试
    def test(self):
        #（1）导入测试文档
        test=self.text_to_jieba(self.import_file(1,2,r"D:\源代码检测\特征提取文档\textzz"))
        #（2）转换数据
        X_test=self.Tfidf()[0].transform(test).toarray()
        test_pd=pd.DataFrame(X_test,columns=self.Tfidf()[1])
        test_sorted=test_pd.sort_values(by=0,axis=1,ascending=False)
        #（4）查看测试文档
        print(test_sorted)


    #传入数据
    def __init__(self):
        #print(self.import_file(1,6,r"D:\源代码检测\特征提取文档\text军训心得"))
        #print(self.text_to_jieba(self.import_file(1,6,r"D:\源代码检测\特征提取文档\text军训心得")))
        #print(self.import_stop_words())
        #self.Tfidf()
        self.test()


if __name__=='__main__':
    TF_IDE()