本文是我进入跨模态学习看的第一篇论文,同时一篇CCF A最新佳作。自然要好好阅读一番,进入这个领域!yyds,奈何能力不够,只能凭照自己理解来写了。欢迎交流!
1.abstract
提出了一种相关特征整合对齐的方法,(Correlated Feature Synthesis and Alignment (CFSA)
把综合特征送入公共语义空间进行学习,不同跨模态相关的特征被提取,并且在循环一致的约束下,迁移到哪些看不到的类中去。
2.related work
Zero-shot Learning for Cross-modal Retrieval(将迁移学习用在跨模态搜索上)
Generative Adversarial Network for Cross-Modal Retrieval(对抗生成网络)
主要工作在ZS-CMR上,提出新的框架来整合多模态数据,公共语义空间学习和知识迁移。
3.CFSA APPROACH
1.Problem Formulation
主要是利用集合Os(训练)(image-text pairs)[四个参数:图像特征,文本特征,类别Embedding,类别便签],里面都是seen class
相似的结合Ot(测试目标)里面都是unseen class
并且Os和Ot之间的交集为空。
目的就是在Ot上面利用在Os上学习到的综合公共特征,完成搜索。
2.Model Architecture
将可见于不可见的类的类嵌入用作语义特征
(1)两个回归器将不同模态数据的true和synthetic特征映射到公共语义空间
(2)分布对齐减少了不同模态数据之间的差异性
(3)循环一致约束减少了语料特征和最初特征之间的差异性
Vi为图片的输入特征
为syn
Zu是由高斯分布产生的,Ci为类别嵌入,然后进行对抗攻击。
loss如上,E()为所有可见类别图片的期望值,色哥吗D为模型参数。
就是要让成对的真实图像和合成图像文本实例在公共语义空间中靠的更近,代表跨模态紧密相关的语义。
统计相关性的两种新的方案:
接下来的三个损失函数都有其自己的含义,看着很复杂,但仔细去了解,已有知识足矣!
(1)
代表在公共语义空间匹配的概率
(2)Cross-Modal Correlation Alignment (CMCA)
to measure the distance between the covariance of common representations of the true and synthetic instances indifferent modalities to explores the overall distribution structure of all instances.
测量计算true与syn之间的距离
(3).Semantic Feature Reconstruction with Cycle Consistency
循环一致,让原始值与经过回归器的值尽量相似,保留的更多,融合学习!
总结
1.这是第一篇论文,摸着石头过河,所以很多都只看到了表面,相信时间的沉淀,博文会更加具有深度,不会出现词穷的情况。
2.第一次知道多模态,跨模态搜索是干嘛的,如何使用和取评估。
3.老师这里使用了迁移学习,用可以看见的类别和看不见的类别共同训练,其中利用了gan来修正结果,几个loss来保证信息不丢失,true与syn的关系,个人感觉这样训练之后,seen class的综合特征是可以运用到unseen class当中去。
阅读论文本人不足之处
1.对于专业名词特征不熟悉,英语还得多看看加强。
2.数学知识需要储备一点,不过公式很复杂,其实很简单,纸老虎!搞懂原理目的才是硬道理!
3.欢迎做此方向的大佬来一起多多交流,共同进步!