理论基础
LDA原理介绍
【百度百科】LDA (LDA文档主题生成模型)
主题模型-LDA浅析
【4种】如何确定LDA的topic个数
LDA评价
LDA主题模型评估方法–Perplexity
LDA结果的实际意义: 取一些Topic下的前几名词,然后与所在方向相结合进行分析,确定其合理性。
文本预处理
总体流程
【科学网】文本分类的数据预处理相关知识介绍
【CSDN】文本挖掘预处理的流程总结
字符串处理
相关的工具
自然语言工具
Python 自然语言处理(NLP)工具库汇总
langdetect下载(工具,判断语言)
【stackoverflow】NLTK and language detection
【Python】Python文本处理中用langid工具包来对文本进行语言检测与判别
词形还原工具对比
NLTK工具
词干提取(stemming)和词形还原(lemmatization)
词形还原工具对比
Gensim
【CSDN】Gensim官方介绍翻译
Gensim 官方Tutorial
Gensim 官方API 文档
pythonNLP-Gensim安装
Python自然语言处理(一)–利用NLTK自带方法完成NLP基本任务
【我爱自然语言处理】如何计算两个文档的相似度(一)
【我爱自然语言处理】如何计算两个文档的相似度(二)
【完整示例】【我爱自然语言处理】如何计算两个文档的相似度(三)
gensim使用方法以及例子(对语料,字典解释的不错)
相似性
语义相似度算法简介
向量空间模型(VSM)算法 一种简单的文本相似度算法
代码示例
pythonNLP-文本相似度计算实验汇总
基于gensim的文本主题模型(LDA)分析