sklearn使用TFIDF进行文本关键字提取

该博客介绍了如何利用sklearn库中的TF-IDF方法来提取文本中的关键字,帮助理解并实践文本分析技术。
摘要由CSDN通过智能技术生成
# encoding=utf-8
from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer

corpus = [
     'This This is the first document.',
     'This This is the second second document.',
     'And the third one.',
     'Is this the first document?',
 ]
tfidf_model = TfidfVectorizer()
tfidf_matrix = tfidf_model.fit_transform(corpus)
word_dict=tfidf_model.get_feature_names()
print(word_dict)
print(tfidf_matrix)

实验结果:

"C:\Program Files\Anaconda3\python.exe" D:/pycharmprogram/csgwork/find_classification_keys/test_tfidfVectorizer.py
['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
  (0, 8)	0.6986804246371375
  (0, 3)	0.34934021231856877
  (0, 6)	0.2856085141790751
  (0, 2)	0.43150466158747897
  (0, 1)	0.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值