这篇文章是比较新的一篇Muti-view Clustering的文章,它提出了一个CO-PLSA的模型,将不同view下的PLSA模型整合起来。这篇文章的主要基本思想是在某一个view下,如果两篇文章在主题空间中相似,那么他们在其他view下的主题空间也将类似。
我们都知道通常的PLSA生成过程如下:
-
根据概率 p(di) 选择一篇文档 di 。
-
根据概率 p(zk|di) 选择一个隐藏主题 zk 。
-
根据概率 p(wj|zk) 生成一个词 wj 。
模型的联合概率分布:
写出似然函数
而COPlSA的目标函数就是
其中 L(Ψ) 是两个view下的似然函数, τv+τw=1 。而主要体现文章思想的地方就在这个 R 上, λ 是用来平衡权重的参数。见图:
这个pairwise co-regularization R是将二个独立的view连接起来的桥梁,它被定义为
其中 Svij 代表文档 i 和文档 j 在view V 下的相似度,相似度使用高斯核来衡量的。
在求解的时候,这个目标函数最大化问题可以用以下相互迭代的方法来解决
-
固定 Ψw=Ψ^w ,解决问题 O(Ψv,Ψ^w) 。
-
固定 Ψv=Ψ^v ,解决问题 O(Ψ^v,Ψw) 。
解决具体问题的时候使用的是EM算法,就不详述了。
原来看这篇文章是想做内容和链接2个view的社区发现的,但是发现它的基本假设不一定相符,在内容和链接的2个view下数据是否有相似性还有待讨论。
参考文献:
1 Jiang,Y., Liu, J., Li, Z., Li, P., and Lu, H.: ‘Co-regularized PLSA for Multi-viewClustering’: ‘Computer Vision–ACCV 2012’ (Springer, 2013), pp. 202-213