Co-regularized PLSA for Multi-view Clustering

1 篇文章 0 订阅
1 篇文章 0 订阅

这篇文章是比较新的一篇Muti-view Clustering的文章,它提出了一个CO-PLSA的模型,将不同view下的PLSA模型整合起来。这篇文章的主要基本思想是在某一个view下,如果两篇文章在主题空间中相似,那么他们在其他view下的主题空间也将类似。

我们都知道通常的PLSA生成过程如下:


  1. 根据概率 p(di) 选择一篇文档 di

  2. 根据概率 p(zk|di) 选择一个隐藏主题 zk

  3. 根据概率 p(wj|zk) 生成一个词 wj

模型的联合概率分布:

p(di,wj)=p(di)p(wj|di)

p(wj|di)=k=1Kp(wj|zk)p(zk|di)

写出似然函数

L(Ψ)=i=1Nj=1Mc(di,wj)logp(di,wj) i=1Nj=1Mc(di,wj)logk=1Kp(wj|zk)p(zk|di)

而COPlSA的目标函数就是

O(Ψv,Ψw)=τvL(Ψv)+τwL(Ψw)λR

其中 L(Ψ) 是两个view下的似然函数, τv+τw=1 。而主要体现文章思想的地方就在这个 R 上, λ 是用来平衡权重的参数。见图:



这个pairwise co-regularization R是将二个独立的view连接起来的桥梁,它被定义为

R=SvSw2F

其中 Svij 代表文档 i 和文档 j 在view V 下的相似度,相似度使用高斯核来衡量的。

Svij=exp(k(pv(zk|di)pv(zk|dj))2σ)


在求解的时候,这个目标函数最大化问题可以用以下相互迭代的方法来解决


  1. 固定 Ψw=Ψ^w ,解决问题 O(Ψv,Ψ^w)

  2. 固定 Ψv=Ψ^v ,解决问题 O(Ψ^v,Ψw)


解决具体问题的时候使用的是EM算法,就不详述了。

原来看这篇文章是想做内容和链接2个view的社区发现的,但是发现它的基本假设不一定相符,在内容和链接的2个view下数据是否有相似性还有待讨论。

参考文献:

1       Jiang,Y., Liu, J., Li, Z., Li, P., and Lu, H.: ‘Co-regularized PLSA for Multi-viewClustering’: ‘Computer Vision–ACCV 2012’ (Springer, 2013), pp. 202-213

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值