【Image captioning】论文阅读七—Efficient Image Captioning for Edge Devices_AAAI2023

本文介绍了LightCap,一种针对边缘设备的高效图像描述方法。它基于CLIP模型,减少了对大容量存储和复杂计算的需求,避免了目标检测器和大型融合网络的使用。LightCap通过视觉概念提取器和跨模态调制器优化了CLIP的图像-文本检索能力,同时通过知识蒸馏实现了模型的小型化。尽管模型大小减少了75%,FLOPs减少了98%,但其在COCO Karpathy测试集上仍能实现136.6的CIDEr分数,推理速度达到188毫秒,适合实际应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

image-20240122224634395

中文标题:面向边缘设备的高效图像描述(Efficient Image Captioning for Edge Devices)

摘要:近年来,图像描述技术取得了快速发展。然而,对大容量存储和复杂计算负担的需求限制了这些图像描述模型在移动设备上的部署。主要的障碍在于沉重的视觉特征提取器(即目标检测器)和复杂的跨模态融合网络。为此,我们提出了LightCap,一种适用于资源受限设备的轻量级图像描述器。其核心设计是基于最近的CLIP模型进行高效图像描述。具体而言,一方面,我们利用CLIP模型提取紧凑的网格特征,而无需依赖耗时的目标检测器。另一方面,我们通过设计一种新颖的视觉概念提取器和跨模态调制器,将CLIP的图像-文本检索设计应用于图像描述场景。我们进一步通过序列和集合蒸馏优化了跨模态融合模型和并行预测头。经过精心设计的架构,我们的模型仅含有40M个参数,与当前最先进的方法相比,模型大小节省了超过75%,FLOPs节省了超过98%。尽管容量较低,但我们的模型仍能在常见数据集上展现出最先进的性能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CV视界

如果感觉有用,可以打赏哦~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值