背景:
- 词集模型
- 词袋模型
- tfidf
主题模型
- LSA/LSI(主题模型):特征选择,一般不抽象为主题,但是可以联想到主题。原理:奇异值分解+降维处理,参考:https://www.jianshu.com/p/9fe0a7004560
- LDA:文档-主题-词模型,提炼出主题概念。原理:隐含狄利克雷分布,参考:https://blog.csdn.net/pipisorry/article/details/42649657
- HDP:分层狄利克雷过程,也是主题模型。接口为HdpModel。参考:https://blog.csdn.net/yan456jie/article/details/52170772
- RP:随机映射:减小空间维度,对CPU和内存友好