tfidf处理代码_TF-IDF

最新推荐文章于 2024-04-17 21:19:57 发布

weixin_39524984

最新推荐文章于 2024-04-17 21:19:57 发布

阅读量243

点赞数

文章标签： tfidf处理代码

本文链接：https://blog.csdn.net/weixin_39524984/article/details/111505933

版权

本文介绍了如何在Python中使用gensim库进行TF-IDF处理。通过安装、预处理和构建词袋模型，展示了如何将文档转换为TF-IDF表示，并用此表示构建LSI和LDA模型。最后，演示了查询文档与原始文档的相似度计算。

摘要由CSDN通过智能技术生成

上一节我们介绍了一些背景知识以及gensim , 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起，然后举一个非常简单的例子用以说明如何使用gensim，下一节再介绍其在课程图谱上的应用。

二、gensim的安装和使用

1、安装

gensim依赖NumPy和SciPy这两大Python科学计算工具包，一种简单的安装方法是pip install，但是国内因为网络的缘故常常失败。所以我是下载了gensim的源代码包安装的。gensim的这个官方安装页面很详细的列举了兼容的Python和NumPy, SciPy的版本号以及安装步骤，感兴趣的同学可以直接参考。下面我仅仅说明在Ubuntu和Mac OS下的安装：

1)我的VPS是64位的Ubuntu 12.04，所以安装numpy和scipy比较简单"sudo apt-get install python-numpy python-scipy", 之后解压gensim的安装包，直接“sudo python setup.py install"即可；

2)我的本是macbook pro，在mac os上安装numpy和scipy的源码包废了一下周折，特别是后者，一直提示fortran相关的东西没有，google了一下，发现很多人在mac上安装scipy的时候都遇到了这个问题，最后通过homebrew安装了gfortran才搞定：“brew install gfortran”,之后仍然是“sudo python setpy.py install" numpy 和 scipy即可；

2、使用

gensim的官方tutorial非常详细，英文ok的同学可以直接参考。以下我会按自己的理解举一个例子说明如何使用gensim，这个例子不同于gensim官方的例子，可以作为一个补充。上一节提到了一个文档：Latent Semantic Indexing (LSI) A Fast Track Tutorial , 这个例子的来源就是这个文档所举的3个一句话doc。首先让我们在命令行中打开python，做一些准备工作:

>>> from gensim import corpora, models, similarities

>>> import logging

>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

然后将上面那个文档中的例子作为文档输入，在Python中用document list表示：

>>> documents = ["Shipment of gold damaged in a fire",

... "Delivery of silver arrived in a silver truck",

... "Shipment of gold arrived in a truck"]

正常情况下，需要

最低0.47元/天解锁文章

weixin_39524984

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫