关于Zero-shot学习笔记(23.10.8)

在最近读文献的过程中,发现现在AI研究的方向主要是倾向于weakly-supervised learning(弱监督学习)unsupervised learning(无监督学习)方面的研究。一是由于传统AI数据集对数据标注的需求量非常大,人工成本较高,且机器标注的准确性不够高。二是如何使机器趋于像人一样拥有自主学习判别功能也是一直以来的研究热点。

看了一篇名为Prefix Conditioning Unifies Language and Label Supervision的文章后,研究如何将NPL的算法模型应用到CV的领域也是一个现在的热点。使用Image-caption也许是区别于传统监督学习的一个突破点,而且获取Image with sentence在web中也比较容易。但是在此数据集中发现了一些新的问题,关于dataset bias:每个数据集中的image种类及其形容词汇大相径庭。当然在上提及的文章中,作者给出了解决方案。但是关于误差研究,也是一个合适的方向。

而我第一次接触到Zero-shot的概念,在搜索前人科普的资料后,其都是属于MMML(多模态机器学习)中的一个部分,暂且不提。以Text和Image结合的方式,一个text对应一个image,而T1,T2,T3...TN,分别对应一个I1,I2,I3...IN,于是可以得到n个正样本,和n^2-n个负样本。因此,Image-caption是一种高效的数据训练方式。

其实Zero-shot实现过程就是通过传统机器学习训练数据集A1,在通过获取A1数据集的特征之后,获取判别A2数据集的能力。例如,A1数据集中包含a1,a2,a3,三种物种,A2数据集中包含a1,a2,a3,a4四种物种,且a4拥有包括a1,2,3在内的一些特征。使用特征向量提取,经过A1训练的模型,可以轻易的匹配出未经过训练的a4。

但是Zero-shot也存在一些待解决的问题:

1、领域漂移问题(domain shift problem)在训练集的选择过程中,不同的训练样本提取的提取到的特征不同,对测试集的分类效果可能不会很好。

2、枢纽点问题(hubness problem)从高维向量空间像低维空间投影,由于减少了方差,会导致低维空间样本点趋于中心点化分布。因此,从高维的图像空间到低维文本向量的投影,会出现投影点向密度高的中心枢纽分布。可以思考如何将同个text类别下的投影点的内部空间的距离扩大,簇与簇之间的样本距离也扩大。(这个问题在文章Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR一文中有提及相应的问题研究)

3、语义间隔(semtic gap)从图像中提取到的特征,往往是视觉特征;而在语义空间中提取到的流形特征区别于在图像中提取。(暂且还搞不懂两种特征有什么区别)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值