[论文解读]2017 TPAMI A Deep Matrix Factorization Method for Learning Attribute Representations
个人对论文的解读
这是我个人对该论文的一些认识与拙见,如果有错也请大家多包涵并指出来,也欢迎对该文有兴趣的童鞋在底下留言评论,大家一起交流探讨。
论文背景:这是一篇在来自2017 TPAMI的论文,实际上早在13年,该论文的作者就在arXiv与14 ICML上发表了简版论文 A Deep Semi-NMF Model for Learning Hidden Representations,后来TPAMI是在会议论文的基础上扩展的。该文章开源,所有的matlab和python代码的文章补充附录都可以在作者主页找到(但是代码有bug)。
文章创新点
这篇文章主要有几个创新点:
- 首创将Semi-NMF扩展成为Deep Semi-NMF,并发现该深度结构可以提取数据的隐藏信息,发现新的数据类别,如下图所示;
该图主要是举例了人脸数据通过该深度模型,第一层可以发现其人脸角度信息,第二层可以发现其表情信息,第三层发现其身份信息,而且是通过无监督的方式来聚类获得的。 - 结合了监督图正则的方法,将Deep Semi-NMF扩展到带标签监督的Deep WSF。
- 受到深度学习的启发,在Deep Semi-NMF与Deep WSF上,作者都加入了激活函数的操作,以提高模型的特征提取能力。
- 设计了模型对应的优化策略。
Deep Semi-NMF模型与优化
Chris Ding在2010年提出了半非负矩阵分解Semi-NMF,非负矩阵分解算法(NMF)这里就不做展开,网上的资料都比较多。NMF是将矩阵
X
X
X 分解为矩阵
Z
Z
Z 与
H
H
H 的乘积,用F范数来表示模型
∥
X
−
Z
H
∥
F
2
\|X-ZH\|_{F}^2
∥X−ZH∥F2,这三个矩阵都有非负的限制。Semi-NMF放宽了非负约束,只将非负限制在矩阵
H
H
H 上。并说明了Semi-NMF有利于数据聚类的应用。
Deep Semi-NMF的本意是将
H
H
H 继续做分解
并用该模型表示
这个时候就会发现,想要优化这个模型,初始化就变为尤为重要了,所以作者就设计这种深度结构对应的优化策略。分为pre-trained与fine-tune两个环节。pre-trained环节也就是跟Semi-NMF一样,前一层得到的
H
H
H 作为下一层的
X
X
X ,以此类推分解,当然每一层都要让其收敛。
然后就轮到fine-tune环节,将偏导置0,参考Semi-NMF的优化,也就得到了对应的优化。对于
Z
i
Z_{i}
Zi ,用求伪逆的方式
对于
H
i
H_{i}
Hi,这里会用到KKT条件,具体的推导这里也不展开了,在Chris Ding 2010的文章中也有推导,下面加了开方以及绝对值的式子,是Ding自己设计的策略。
非线性激活函数的加入及优化
在Deep Semi-NMF上加入了非线性的激活函数,
g
g
g 代表激活函数,加了之后Deep Semi-NMF目标函数变成了
Deep WSF目标函数变成了
在优化策略上,pre-trained环节还是跟之前一样,一层一层地做。但是fine-tune环节现在就没办法用原来的分解方法求解了,因此作者用了随机梯度下降SGD或者Adam的方法来做,现在很多框架都可以自动求导了。
实验
数据集主要是三个
C
M
U
P
I
E
CMU PIE
CMUPIE,
X
M
2
V
T
S
XM2VTS
XM2VTS,
C
A
S
I
A
W
e
b
F
a
c
e
CASIA WebFace
CASIAWebFace,除了
C
M
U
P
I
E
CMU PIE
CMUPIE,其他都不是公开数据集。分类实验用了
C
M
U
M
u
l
t
i
−
P
I
E
CMU Multi-PIE
CMUMulti−PIE,也不是公开的
这篇文章主要做了几个传统非负矩阵分解的聚类实验,指标NMI与ACC,来证明算法的优越性,也对比了浙大蔡登的GNMF,国防科大管乃洋的NeNMF,很老套,也就不展开了。
作者也针对PIE数据集,针对创新点1做了相应的补充,结合SVM进行分类,多种标签数据是作者自己做的,相关的实验代码没有公开。
总结
- 该文的整体工作量还是非常足,以Deep Semi-NMF为baseline设计了多个模型,设计了多种优化。为矩阵分解模型在深度结构的探索做出了重要的贡献。
- 是传统矩阵分解算法与深度学习的结合,加入了非线的激活函数,加入随机梯度下降方法,验证了深度结构有利于增强矩阵分解的能力,具有很好的启发性。
个人的几个疑点
- 这篇文章的代码确实有不少问题,非线性的代码函数缺失,我也发过邮件向原作者请教,不过没收到回信。
- 在验证Deep Semi-NMF这种结构可以提取隐藏信息这个点上,文章只是最后做了个小小的实验补充,作为重要的创新点,个人认为说服力不足,实验用到的数据集也是作者自制的,无公开。
- 蔡登的GNMF对于PIE数据集的表现,要比本文中展示的高。同时也不知道为什么在验证创新点1的时候,没有对比GNMF。这也让我对实验结果存疑。