阅读笔记之：Multimodal learning in Loosely-organized web images-CVPR2014

本文链接：https://blog.csdn.net/huayantina/article/details/46380915

摘要：网络图像数据包含的元数据包含文本，标题，拍摄位置，拍摄器材等信息。这些信息可能具有噪声，可能残全不全，这篇文章主要是利用多模态的信息，如果没有监督信息就对样本进行聚类，如果有少量的监督信息，就可以对样本进行标注。这篇文章提出了一个隐的CRF模型，把样本看成是CRF模型的nodes，一元项是依赖于选定的模态特征的K-means损失，二元项是其他模态特征的相似度损失，在相似度中使用到了ITML(Information Theoretic Metric Learning)衡量相似度，对于二元项中多种模态的权重，采取结构SVM学习。如果没有二元项就是简单的对单模态数据的K-means聚类。

方法：Constrained clustering framework

由于这篇文章的方法可以看成是K-means在多模态情况下的扩展，in retrospect，我们来看一下k-means的formulation。

其中y_i是类索引，u_k是类中心，x_i是样本。空心大写1（）是指示函数。下面这个函数是在k-means的基础上添加一个损失项，是这篇文章的总的损失函数

第一项就是kmeans同样的表达，只不过alpha函数是二次函数的一般形式，这一项表达的含义就是用其中一个模态的特征进行kmeans聚类，文中把这个模态的特征叫做primary feature。第二项是用两个样本的其他模态特征的相似度来衡量是否应该把他们分为一类。这两项就相当于CRF模型的一元项和二元项，而样本的类别是隐变量，是需要求解的。

文中二元项的定义如上式，其中1（）这一项表明没有丢失的模态数据才对损失函数有贡献，而d_m表明两样本的第m个模态的特征的距离，用ITML表示，

而w_m和b采用structural svm学习得到

delta函数是不正确分类的数据对数量，也就是两个数据是同类的分为不同类，或者是不同类分为同类的样本数量。预测标签的损失函数应该比真值标签的损失函数大，最小化松弛变量就能够得到函数参数。文中说这种损失叫做Rank Index，是一个很popular的度量。

评价：这就是整个方法，要是对于CRF，Structural-SVM, ITML很熟悉的人应该很容易理解。恰好我对这几方面都挺熟悉的，而且多模态的数据我也在研究，不过还是觉得虽然使用的都是我们很熟悉的机器学习方法，但是把他们巧妙的结合起来，使用在合适的场景之下，还是很赞的。这个框架可以解决很多问题，在文章的实验部分也有所体现，待我仔细看。