1、InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
中文标题:InternLM-XComposer2:掌握视觉语言大模型中的自由形式文本图像合成和理解
简介:我们引入了InternLM-XComposer2,这是一个先进的视觉语言模型,专注于自由形式的文本-图像合成和理解。该模型不仅超越了传统的视觉语言理解,还能够从各种输入中灵活地生成交错的文本-图像内容,包括轮廓、详细的文本规范和参考图像,从而实现高度可定制的内容创作。
InternLM-XComposer2提出了一种部分LoRA(PLoRA)方法,将额外的LoRA参数专门应用于图像标记,以保持预训练语言知识的完整性,实现准确的视觉理解和具备文学才能的文本构成之间的平衡。实验结果表明,基于InternLM2-7B的InternLM-XComposer2在生成高质量的长文本多模态内容以及在各种基准测试中展现出色的视觉语言理解性能方面优于现有的多模态模型。在某些评估中,它甚至与GPT-4V和Gemini Pro媲美甚至超越,凸显了它在多模态理解领域的卓越能力。
InternLM-XComposer2模型系列的7B参数已经在https://github.com/InternLM/InternLM-XComposer上公开提供。
2、A Survey on Visual Anomaly Detection: Challenge, Approach, and Prospect
中文标题:视觉异常检测调查:挑战、方法和前景
简介:视觉异常检测(VAD)的目标是准确定位与正常概念不符的视觉数据中的偏差。VAD广泛应用于不同领域,如工业缺陷检测和医学病变检测。本综述全面审视了VAD领域的最新进展,并提出了三个主要挑战:1)训练数据稀缺,2)视觉模态多样,3)异常的层次复杂。
综述从VAD的背景和通用概念定义的简要概述开始,然后从样本数量、数据模态和异常层次的角度对最新的VAD进展进行了分类、强调和讨论。通过对VAD领域的深入分析,我们总结了VAD未来的发展方向,并得出了本综述的主要发现和贡献。
3、Continual Learning with Pre-Trained Models: A Survey
中文标题:使用预先训练的模型进行持续学习:一项调查
简介:当今,现实世界的应用程序经常面临流数据的挑战,这要求学习系统能够随着数据的演变而吸收新知识。连续学习(CL)旨在实现这一目标,同时克服在学习新知识时遗忘旧知识的灾难性后果。
典型的CL方法是从头开始构建模型,并随着数据的到来逐步增长。然而,预训练模型(PTM)时代的到来引发了巨大的研究兴趣,尤其是利用PTM强大的表现能力。本文对基于PTM的CL的最新进展进行了全面调查。
我们将现有的方法学分为三个不同的组,并比较分析它们的相似之处、不同之处以及各自的优缺点。此外,我们还提供了一个经验研究,对比了各种最先进的方法,以突出关于公平性的问题。您可以在以下网址找到重现这些评估的源代码:https://github.com/sun-hailong/LAMDA-PILOT。