中文标题:面向边缘设备的高效图像描述(Efficient Image Captioning for Edge Devices)
文章目录
摘要:近年来,图像描述技术取得了快速发展。然而,对大容量存储和复杂计算负担的需求限制了这些图像描述模型在移动设备上的部署。主要的障碍在于沉重的视觉特征提取器(即目标检测器)和复杂的跨模态融合网络。为此,我们提出了LightCap,一种适用于资源受限设备的轻量级图像描述器。其核心设计是基于最近的CLIP模型进行高效图像描述。具体而言,一方面,我们利用CLIP模型提取紧凑的网格特征,而无需依赖耗时的目标检测器。另一方面,我们通过设计一种新颖的视觉概念提取器和跨模态调制器,将CLIP的图像-文本检索设计应用于图像描述场景。我们进一步通过序列和集合蒸馏优化了跨模态融合模型和并行预测头。经过精心设计的架构,我们的模型仅含有40M个参数,与当前最先进的方法相比,模型大小节省了超过75%,FLOPs节省了超过98%。尽管容量较低,但我们的模型仍能在常见数据集上展现出最先进的性能