2021-3-2 整理代码

import jieba
from sklearn.feature_extraction.text import  TfidfVectorizer
import pandas as pd
class TF_IDE():
    #导入文档
    def import_file(self,a,b,file_path0):
        text_list=[]
        for i in range(a,b):
            file_path=str(file_path0)+str(i)+".txt"
            with open(file_path,encoding="UTF-8") as f:
                text=f.read()
                text_list.append(text)
        return text_list
        pass
    #使用结巴
    def text_to_jieba(self,text):
        text_jieba_list=[]
        for i in text:
            text_jieba=jieba.cut(i,cut_all=True)
            text_jieba=" ".join(text_jieba)
            text_jieba_list.append(text_jieba)
        return text_jieba_list

    #导入停用词表
    def import_stop_words(self):
        stop_words_list=[]
        stop_words=self.import_file(1,5,r'D:\源代码检测\中文停用词表\stopwords-master\stop_words')
        for i in stop_words:
            stop_words_=i.split("\n")
            #对停用词表中的词进行遍历
            for j in stop_words_:
                stop_words_list.append(j)
        return stop_words_list

    #生成分析库
    def Tfidf(self):
        vectorizer=TfidfVectorizer(stop_words=self.import_stop_words())
        X=vectorizer.fit_transform(self.text_to_jieba(self.import_file(1,6,r"D:\源代码检测\特征提取文档\text军训心得"))).toarray()
        #查看特征
        X_feature_names=vectorizer.get_feature_names()
        #
        X_pd=pd.DataFrame(X,columns=X_feature_names)
        for i in range(0,5):
            X_sort=X_pd.sort_values(by=i,axis=1,ascending=False)
            print("第",str(i+1),"篇文档的关键词排序:\n",X_sort.iloc[i,:])
        return vectorizer,X_feature_names

    #测试
    def test(self):
        #(1)导入测试文档
        test=self.text_to_jieba(self.import_file(1,2,r"D:\源代码检测\特征提取文档\textzz"))
        #(2)转换数据
        X_test=self.Tfidf()[0].transform(test).toarray()
        test_pd=pd.DataFrame(X_test,columns=self.Tfidf()[1])
        test_sorted=test_pd.sort_values(by=0,axis=1,ascending=False)
        #(4)查看测试文档
        print(test_sorted)


    #传入数据
    def __init__(self):
        #print(self.import_file(1,6,r"D:\源代码检测\特征提取文档\text军训心得"))
        #print(self.text_to_jieba(self.import_file(1,6,r"D:\源代码检测\特征提取文档\text军训心得")))
        #print(self.import_stop_words())
        #self.Tfidf()
        self.test()


if __name__=='__main__':
    TF_IDE()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值