Dual Contrastive Prediction for Incomplete Multi-view Representation Learning个人学习

摘要

问题:我们提出了一个统一的框架(unified framework)来解决 不完全多视图表示学习(incomplete multi-view representation learning)中的以下两个挑战性问题:i)如何学习统一不同视图的一致表示(a consistent representation unifying different views),ii)如何恢复丢失的视图(recover the missing views)。
解决:为了应对这些挑战,我们提供了一个信息理论框架(information theoretical framework),将一致性学习(consistency learning)和数据恢复(data recovery)作为一个整体来处理。在理论框架下,我们提出了一个新的目标函数(objective function),它联合解决了上述两个问题,并实现了可证明的充分最小表示(achieves a provable sufficient and minimal representation)。
具体做法:具体来说,一致性学习是通过对比学习(contrastive learning)->最大化不同视图的互信息(mutual information)来实现的,而缺失的视图是通过对偶预测(dual prediction)->最小化条件熵(dual prediction)来恢复的。
结论意义:据我们所知,这是第一个从理论上统一表示学习的跨视图一致性学习和数据恢复的工作。大量实验结果表明,在六个数据集上,该方法在聚类、分类和人类行为识别方面明显优于20种竞争性多视图学习方法。可以从以下位置访问代码https://pengxi.me.

介绍

在实际应用中,数据通常以多个视图或模式表示,它们通常具有多种异构属性(heterogeneous properties)。为了缩小这种异质差距(heterogeneous gap),多视图表示学习(multi-view representation learning)(MvRL)[1]、[2]旨在学习一个函数f,该函数将多视图数据映射到一个低维空间,在该空间中学习一个公共表示(common representation),来完成后续任务,如聚类[3]–[13]、分类[14]–[17]和人类行为识别[18]。为了实现这一目标,多视图RL的关键是学习不同视图之间的一致性。
一致性学习的成功依赖于隐含的(implicit )数据假设,即每个数据点的所有视图都可用。然而,在实践中,由于数据收集和传输的复杂性,这种假设可能并不令人满意,因此导致了所谓的不完全多视图问题(incomplete multi-view problem)(IMP)。为了解决IMP,最近提出了许多方法[19]-[24],其目的是回答:i)如何学习跨不同视图的一致表示?以及ii)如何恢复不完整数据的缺失视图?虽然现有的工作取得了可喜的成绩,但几乎所有的工作都将上述两个问题视为两个不相关的任务,分别解决,从而得到了一个次优的解决方案。

根据图1所示的观察结果,我们从理论上表明,交叉视图一致性学习和数据恢复可以看作一枚硬币的两面。根据我们的理论结果,我们提出了一个共同解决这两个挑战性问题的一般目标函数。我们证明了目标函数所学习的表示是充分的和最小的。充分表示是指为下游任务学习了足够的信息,最小表示是指所有与任务无关的信息都在固定间隔内被删除。为了实现我们的想法,我们提出了一种新的不完全多视图表示学习方法,称为双对比预测(Dual Contrastive Prediction)(DCP)。具体来说,DCP将高维数据投影到一个潜在空间,其中通过三个联合损失来保证交叉视图的一致性和数据的可恢复性。简而言之,视图内重建损失(a within-view reconstruction loss)用于学习视图特定表示,同时保留原始信息;设计了一个双重对比损失(a dual contrastive loss),通过最大化互信息I(Z1;Z2)来学习交叉视图的一致性;提出了一种双重预测损失(a dual prediction loss),通过最小化条件熵H(Z1|Z2)和H(Z2|Z1)来恢复丢失的视图。总之,贡献和创新如下:
1.我们为社区提供了一个新的见解,即跨视图一致性学习和数据恢复在信息理论框架内具有内在联系。这种理论框架与现有的MvRL研究截然不同,后者将一致性学习和数据恢复视为两个独立的问题。
2.在我们的信息理论框架下,我们提出了DCP,它分别通过双重对比损失和双重预测损失来实现信息一致性和数据可恢复性
3.为了利用可用的标签信息,DCP设计并利用实例和类别级别的对比度损失(instance- and category-level contrastive loss)来增强表示的可分性。
4.我们从理论和实验上证明,DCP可以学习三个任务的充分和最小表示,即聚类、分类和人类行为识别。

图1的分析:
x1,x2表示给定数据集的两个视图(view),对应的表示(representations)是z1,z2
y是任务相关信息(task-relavant information)。(公式中H表示相减,I表示交集?)
a2,a3表示x1,x2的互信息(mutual information),a2是任务不确定信息,a3是任务相关信息,a4是从输入数据中不可得到的任务相关信息。
关于z:用z的互信息(I)学习一致性表示,用z的条件熵(H)恢复缺失视图。将I最大化,H最小化实现。

实现

在本节中,我们首先介绍我们的信息理论框架,其中一致性学习和数据恢复是统一的。
此外,我们证明了该理论框架可以学习到一个充分和最小的表示。
然后,我们详细阐述了提出的双对比预测方法(DCP),它可以从不完整的数据中学习多视图表示。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值