Seiya Tokui, Issei Sato,
The University of Tokyo
ICLR 2022
摘要
作者提出了对一种解耦能力度量的框架,从唯一性、冗余性和协同性的角度来理解解耦。
在变分自编码器上做了相关实验。
引言
解耦是一种学习表征的指导准则,可以分离出各个单独变化的因素,以此控制非结构化表征,例如图像、文本、音频。
解耦概念新颖但很多问题有待解决。
目前的解耦指标可能无法检测到涉及两个以上变量的耦合。导致忽略传递一个生成因子信息的多个变量z = (z1, z2)。
贡献:
- 基于PID的解耦分析框架。提出了一个解耦的分析框架,用PID捕捉多个变量之间的相互作用。通过这个框架,可以区分两种不同类型的耦合,即冗余和协同,从而深入了解一个表征如何耦合生成因子。
- 部分信息项的可实现的界限。推导出部分信息项的下界和上界。利用唯一信息的下限,制定了一个解耦度量,称为UNIBOUND。设计了耦合攻击,将耦合注入给定的解耦表示,并通过实验证实UNIBOUND有效地捕获了多变量的耦合。
- 对学到的表征进行详细分析。分析了由变分自动编码器(VAEs)获得的表征。观察到,UNIBOUND有时与其他指标不一致,这表明多变量的相互作用可能主导着所学的表征。还观察到,在用不同方法学习的模型中出现了不同类型的耦合。这一观察提供了一个启示,即可能需要不同的方法来消除它们,以实现解耦的表征学习。
相关工作
由于生成因素作为下游学习任务的基础是有用的,从数据中获得分解的表征是表征学习的一个热门话题。Higgins等人(2017)建立了一个标准的评估程序,在该程序的基础上提出了多种指标。其中,Higgins等人(2017)和Kim Mnih(2018)提出了基于生成因子条件下每个潜变量的偏差的度量。相比之下,相互信息差距(MIG)(Chen等人,2018)及其变体(Do Tran,2020;Zaidi等人,2020)是基于潜变量和生成因子之间的相互信息。作者扩展了后者的方向,考虑多变量的相互作用。
Barlow(1989)通过比较群体和个体变量的熵,即总的相关度(TC)来讨论冗余度。不过,将冗余作为一个信息量来衡量就不那么简单了。PID框架(Williams & Beer, 2010)提供了一种方法来理解多个随机变量之间的冗余,作为相互信息的一个组成部分。
部分信息分解的解耦
部分信息分解(PID——Partial information decomposition)
从信息理论的角度解决了相对于真实生成因子 y k y_k yk的潜在表示 z z z的解耦问题。考虑评估一个生成因子 y k y_k yk是如何被潜在表示 z