安装Python库Gensim
我的环境:Window10,Python3.5,Anaconda3,Pycharm2018.6.2
Gensim库
gensim 库是一个专注于自然语言处理(NLP)的开源库,特别专长于主题建模(Topic Modeling)和文本相似度计算。
Gensim在机器学习和数据科学领域非常流行,因为它可以处理大规模的文本数据,并且提供了多种算法,如潜在语义分析(LSA)、隐含狄利克雷分配(LDA)、随机映射(Random Projections)等。
其应用场景广泛,包括但不限于信息检索、文本分类、问答系统、文本摘要、情感分析、推荐系统等 NLP 相关任务。
安装:
安装gensim库也分为两种情况,怕遇到麻烦,就直接按昨天安装scikit-surprise库方法
打开Anaconda-Prompt 输入命令安装(有Anaconda的话)
![Anaconda Prompt](https://img-blog.csdnimg.cn/20181228220902381.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_100,text_dnhaZVhpbjAy,size_48,color_ee3f4d,t_50)
①
conda install -c conda-forge gensim
![conda install -c conda-forge gensim](https://img-blog.csdnimg.cn/20181229131419971.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_100,text_dnhaZVhpbjAy,size_48,color_ee3f4d,t_50)
可怕的事还是出现问题。
![conda install -c conda-forge gensim error](https://img-blog.csdnimg.cn/20181229131530912.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_100,text_dnhaZVhpbjAy,size_48,color_ee3f4d,t_50)
第②种我就直接尝试pip了,
①
pip install gensim
②
python3 -m pip install --upgrade pip
python3 -m pip install --upgrade gensim
③
pip install requests gensim
![pip install gensim](https://img-blog.csdnimg.cn/20181229131917409.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_100,text_dnhaZVhpbjAy,size_48,color_ee3f4d,t_50)
竟然成功了。
![import gensim](https://img-blog.csdnimg.cn/2018122913195473.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_100,text_dnhaZVhpbjAy,size_48,color_ee3f4d,t_50)
效果展示:
一个问题就是import gensim 出现上方的warning时请在开头添加下列代码
代码:
import warnings
warnings.filterwarnings(action='ignore',category=UserWarning,module='gensim')
![import warnings](https://img-blog.csdnimg.cn/20181229133117747.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_100,text_dnhaZVhpbjAy,size_48,color_ee3f4d,t_50)
Gensim其主要特点和功能包括:
- 无监督学习:
- Gensim的设计哲学是无监督学习,不需要标注的数据集,可以从原始文本中自动学习和提取特征。
- 主题建模:
- 支持潜在语义分析(Latent Semantic Analysis, LSA)、潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)、层次狄利克雷过程混合模型(Hierarchical Dirichlet Process, HDP)等主题模型算法,可用于从文档集合中发现隐藏的主题结构。
- 流式训练:
- 支持大型数据集的流式处理,不需要一次性加载全部数据到内存中,适合处理大规模文本数据。
- 高效性能:
- gensim 库优化了内存使用和计算效率,能够在较大规模的文本数据集上高效运行。
- 跨语言支持:
- Gensim支持多种语言,可以处理不同语言的文本数据。
- 多种算法:
- 还提供了其他多种算法,如TF-IDF、Word2Vec、FastText等,用于文本向量化表示。
- 词向量:实现 Word2Vec、FastText 等词嵌入算法,将词汇表中的词语转换为连续向量表示,有助于捕捉词语间的语义关系。
- 文档向量:Doc2Vec 模型可以为整个文档生成向量表示,以便于进行文档间相似度计算或聚类分析。
- TF-IDF:提供 TF-IDF(Term Frequency-Inverse Document Frequency)文本特征提取,用于文档的预处理和权重计算。
- 易用性:
- Gensim的API设计简洁直观,易于理解和集成到其他应用程序中。
- 可扩展性:
- Gensim支持在线学习,可以实时地对新文档进行建模,不需要重新训练整个模型。
Gensim的基础使用步骤:
1. 预处理:
- 将文本数据转换为Gensim可以处理的格式,通常是通过分词、去停用词等步骤生成一个包含所有文档中词的列表。
2.构建语料库:
- 使用预处理后的文本数据创建一个语料库,语料库是一个迭代器,可以一次生成一个文档的词袋(bag-of-words)表示。
3.训练模型:
- 选择一个合适的模型(如LDA、Word2Vec等),使用语料库来训练模型。
4.应用模型:
- 训练完成后,可以使用模型进行主题推断、文本相似性分析、文本向量化等任务。
希望本文对你安装Python的Gensim库提供了帮助。
SueMagic wish you a happy coding~
有疑问可联系我。
友情链接参考: