精准的图像描述不仅可以让人们更容易理解图像背后的故事和信息,还可以让图像更易于被检索和识别。然而,对于那些复杂的图像来说,写出既准确又详细的描述实在是件非常困难的事情。
图像描述算法的演变
所谓 Image Caption(图像描述)任务,就是让计算机能够根据一张图片自动生成相应的文字描述。在早期的模型,比如 OpenAI 的 CLIP,利用了无监督学习和微调技术,通过海量的图片和文本数据集进行了训练,理解了图片和文本间的联系,从而能够生成有意义的图像描述。
后来,一种名为 BLIP-2 的算法应运而生,它采用了更高效的预训练策略。BLIP-2 利用现成的冻结预训练图像编码器和大型语言模型,通过一个轻量级的查询式 Transformer 来连接不同的模态。不仅减少了训练参数,还保证了各种视觉-语言任务上取得 SOTA 表现。
得益于多模态技术的不断发展,图像描述这个需要结合 CV 和 NLP 的老大难问题在近些年里迈出了一大步。但直到现在,大部分 AI 生成的图像描述都比较笼统简短,难以充分展示图像的丰富内涵。尤其为复杂图像所生成的文本描述在准确性方面仍存在明显不足,更别提那些涉及多个物体、互动和复杂细节的图像了。
现有图像描述解决方案面临的挑战
1. 过于简化或空泛的论述
如图,大多数图像字幕算法给出的是“一个人和一条狗”,看似准确,但其这张图里有非常丰富的物体和故事。他们在外面做什么,他们为什么会露营,右边的背包有什么暗示吗?
2. 缺少细微差别和关系
如图,简单地给出“对象 A 和对象 B”的描述是远远不够的,两者间的空间关系传达了截然不同的内涵。
3. 处理噪音和糟糕的图像质量
如图,中间显示的“攻击”对比扰动原来照片,尽管人类眼睛瞟一眼就知道和原始图片没变化,但图像描述算法依然标错了分类。