- 主题模型理论
- 什么是主体模型? 比如,文章属于哪一主题?分类问题
- 直观的看:
特征--->简历--->好/坏
- LDA
是一种无监督的贝叶斯模型
是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时她是一种无监督学习算法,
在训练时,不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量K即可。此外LDA的另一个优点是,
对于每一个主题均可找到一些词语来描述它
是一种典型的词袋模型,即它认为⼀一篇⽂文档是由⼀一组词构成的⼀一个集合,词与词之间没有顺序以及先后的关系。
一篇⽂文档可以包含多个主题,⽂文档中每⼀一个词都由其中的⼀一个主题⽣生成。