[阅读笔记10][instructBLIP]Towards General-purpose Vision-Language Models with Instruction Tuning

instructBLIP这篇论文也是ALBEF,BLIP,BLIP2团队的工作,之前几篇的一作变成通讯和共一了,于23年9月发表。

这篇论文内容比较简单,基本就是BLIP2的指令微调版本。作者主要提出了两点贡献。
第一点就是提出了指令感知的Q-former,可以提取与指令相关的图像特征。
第二点就是提出了均衡采样策略,对于不同数据集有不同的采样概率。
下面这张图就是模型结构,除了在做微调时将指令也一起输入给Q-former以外,还有LLM用vicuna版本替换opt版本。其余基本都与Blip2一致。

一共使用了26个公开数据集,涉及11项任务,其中标黄色的为微调数据集,其余为测试数据集。
由于不同数据集规模不同,等概率地对每个数据集采样可能导致模型在小数据集(一般是简单任务)上过拟合,在大数据集(一般是复杂任务)上欠拟合。为此作者又提出了第二点贡献,也就是均衡采样策略。具体而言就是根据模型规模确定采样概率,大数据集采样概率高,小数据集采样概率低。另外作者又考虑任务难度,对于这两个数据集手动调整采样概率。具体而言,像OKVQA这种开放式文本生成的数据集,提升采样概率,对于A-OKVQA这种以选择题为主的数据集降低采样概率。主要是考虑前者任务难,后者任务简单。

这张表对论文提出的两点主要贡献做的消融实验,可以看到去掉这两个哪一个对于模型性能都会造成明显的下降。

这是在未参与微调的13个数据集上的zero-shot表现,在这些数据集上均达到了sota,另外instructBLIP在模型大小上也占据着明显优势。

这里的实验类似谷歌FLAN中的实验,以BLIP2为基础,测试了BLIP2+多任务学习和BLIP2+指令微调的结果,显然指令微调的zero-shot效果要更好。

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
近年来,半监督深度面部表情识别成为了人们关注的热点问题之一。在这个领域,研究人员一直致力于利用少量有标签的数据和大量无标签的数据来提高面部表情识别的准确性和鲁棒性。Adaptive是一种有效的半监督学习方法,它能够自适应地利用标签和无标签数据,使得深度学习模型在应用于面部表情识别时更加有效。 半监督学习是一种机器学习方法,利用少量有标签的数据和大量无标签的数据来训练模型。在面部表情识别中,往往很难获取大量有标签的数据,而无标签数据却很容易获取,因此半监督学习成为了一种有吸引力的解决方案。通过利用Adaptive方法,研究人员可以更好地利用无标签数据,提高模型的泛化能力和鲁棒性,从而提升面部表情识别的准确性。 Adaptive方法还可以帮助模型在数据分布变化时自适应地调整,使得模型更具灵活性和稳健性。在面部表情识别任务中,由于不同环境和条件下的面部表情具有差异性,Adaptive方法能够使模型更好地适应这种差异,提高识别的鲁棒性。 总之,半监督深度面部表情识别与Adaptive方法的结合,有望提高面部表情识别的准确性和鲁棒性,为人们提供更加高效和可靠的面部表情识别技术。相信随着更多研究和实践的开展,半监督深度面部表情识别将迎来更加广阔的发展前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值