X308919-CSDN博客

原创 Exploring Document Similarity with Doc2Vec and Cosine Similarity

【代码】Exploring Document Similarity with Doc2Vec and Cosine Similarity。

2024-11-18 16:38:55 671

原创 A Guide to NLP Analysis with Gensim: Using LDA for Topic Modeling

【代码】A Guide to NLP Analysis with Gensim: Using LDA for Topic Modeling。

2024-11-18 16:36:25 1920

原创使用Gensim进行NLP分析：基于LDA的主题建模指南

本文介绍了如何使用Gensim库进行LDA（潜在狄利克雷分配）主题建模。LDA是分析和提取大规模文本数据中潜在主题的有效工具，广泛应用于文本挖掘、情感分析等领域。文章从数据预处理、构建词典和语料库、训练LDA模型到可视化结果，详细讲解了每个步骤，并通过实际代码示例演示了如何在Python中实现这一过程。通过LDA，用户可以自动发现文本数据中的隐含主题，进一步支持内容分类、文本摘要和大规模文本数据的探索。

2024-11-18 15:09:01 2065

原创使用 Gensim 进行 NLP 分析：从主题建模到文档相似度

本文介绍了如何使用 Gensim 进行自然语言处理（NLP）分析，涵盖了主题建模（LDA）和文档相似度分析（Doc2Vec）。通过数据预处理、模型构建和可视化，读者可以学习如何从文本数据中提取有价值的主题信息并衡量文档之间的相似性，适用于内容分类和推荐系统等领域。

2024-11-18 14:04:02 1487

原创 NLP分析

自然语言处理(NLP)，是人工智能的一个分支，它允许机器理解、处理和操纵人类语言。Gensim是在做自然语言处理时较为经常用到的一个工具库，主要用来以无监督的方式从原始的非结构化文本当中来学习到文本隐藏层的主题向量表达。将和大家一起学习几个关键的 NLP 主题，帮助我们更加熟悉使用 Gensim 进行文本数据操作。Gensim不直接处理原始文本数据，因此需要对数据进行预处理，包括分词、去除停用词、标点符号等。文档向量化：Bag-of-Words、TF-IDF等。文本预处理：分词、去停用词等。

2024-11-16 15:29:38 363