LLDA 主要是用来解决多标签问题的
slda要求每个doc只能有一个label。llda好像是在这点上做了扩展。
LDA数学八卦:
http://vdisk.weibo.com/s/q0sGh/1360334108?utm_source=weibolife
博士论文:
Studying people, organizations, and the web with statistical text models. Daniel Ramage. Stanford University PhD Thesis, 2011
http://nlp.stanford.edu/software/tmt/tmt-0.4/
http://nlp.stanford.edu/~dramage//
学习dirichlet 分布:
对于单标签问题。不是相当于每个doc只有一个topic了。这样lda模型就失去了它本质的优势啊
LLDA比较适合多标签的分类问题(本身它也是基于这个角度提出的)。原因是,LLDA在应用于监督学习的时候,与LDA的区别只在于将文档由所有topic的混合分布修改为了该文档的lables的混合分布,Dirichlet的α参数也有原来的K(topic个数)维降到了Md(文档的label个数)维。但是,当每个文档都只有一个label的时候,也就是说相当于每个文档只有一个topic,此时,doc-topic不再是多项式分布,先验也不适合用Dirichlet了。LDA的单文档对应多topic的假设就没用了。
http://cos.name/2013/01/lda-math-beta-dirichlet/
http://blog.csdn.net/jiang1st2010/article/details/8841644
http://www.cs.cmu.edu/~epxing/Class/10701-08s/recitation/dirichlet.pdf
参照:
Supervised topic models stanford