背景
tfidf相对词频可以很好的反应出文本中的关键词。本文将使用sklearn进行关键词提取。
博客使用的资源和源码已上传:http:download.csdn.net/download/wangjie5540/12075235
实战
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/89399dfd4a43068f15343348fb053545.png)
- 结巴分词
- 使用pandas读取csv文件内容
- 遍历titile内容进行分词
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/d67114d16257b74de992b5a915fdee32.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/e889a73b5835a4c7ab427c5daa8ddc7a.png)
- 使用sklearn的TfidfVectorizer对文本进行向量化
- tfidf.toarray()转换成为矩阵,然后进行
行排序
,取最后的n个索引(argsort是拿到索引值) - 通过get_feature_names获取到词袋的词语
- 通过索引进行取值