代码小练
from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer() #语料 corpus = ['我 来 到 北京 大学', #文本[1] '他 来到 了 网易 杭研 大厦', #文本[2] '小明 硕士 毕业 于 中国 科学院', #文本[3] '我 爱 北京 天安门'] #文本[4] #都是分词后的结果 result = tfidf.fit_transform(corpus).toarray() print(result) #统计关键词 word = tfidf.get_feature_names() print(word) #统计关键词出现的次数 for k,v in tfidf.vocabulary_.items(): print(k,v) #对比第i类文本的词语tf-idf权重 for i in range(len(result)): print('--------',i,'--------') for j in range(len(word)): print(word[j],result[i][j])
基于Sklearn调用TF-IDF
最新推荐文章于 2024-06-01 20:54:51 发布