基于Sklearn调用TF-IDF

最新推荐文章于 2024-06-01 20:54:51 发布

hxxjxw

最新推荐文章于 2024-06-01 20:54:51 发布

阅读量278

点赞数

文章标签： sklearn TF-IDF

本文链接：https://blog.csdn.net/hxxjxw/article/details/106947765

版权

代码小练

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()

#语料
corpus = ['我 来 到 北京 大学',   #文本[1]
          '他 来到 了 网易 杭研 大厦',  #文本[2]
          '小明 硕士 毕业 于 中国 科学院',  #文本[3]
          '我 爱 北京 天安门']    #文本[4]
#都是分词后的结果

result = tfidf.fit_transform(corpus).toarray()
print(result)

#统计关键词
word = tfidf.get_feature_names()
print(word)

#统计关键词出现的次数
for k,v in tfidf.vocabulary_.items():
    print(k,v)

#对比第i类文本的词语tf-idf权重
for i in range(len(result)):
    print('--------',i,'--------')
    for j in range(len(word)):
        print(word[j],result[i][j])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hxxjxw

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于Sklearn调用TF-IDF

代码小练from sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer()#语料corpus = ['我来到北京大学', #文本[1] '他来到了网易杭研大厦', #文本[2] '小明硕士毕业于中国科学院', #文本[3] '我爱北京天安门'] #文本[4]#都是分词后的结果r.
复制链接

扫一扫