CV论文--2024.1.31

最新推荐文章于 2024-08-14 17:22:54 发布

计算机视觉每日论文

最新推荐文章于 2024-08-14 17:22:54 发布

阅读量425

点赞数 7

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/u012854516/article/details/135945844

版权

1、InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

中文标题：InternLM-XComposer2：掌握视觉语言大模型中的自由形式文本图像合成和理解

简介：我们引入了InternLM-XComposer2，这是一个先进的视觉语言模型，专注于自由形式的文本-图像合成和理解。该模型不仅超越了传统的视觉语言理解，还能够从各种输入中灵活地生成交错的文本-图像内容，包括轮廓、详细的文本规范和参考图像，从而实现高度可定制的内容创作。

InternLM-XComposer2提出了一种部分LoRA（PLoRA）方法，将额外的LoRA参数专门应用于图像标记，以保持预训练语言知识的完整性，实现准确的视觉理解和具备文学才能的文本构成之间的平衡。实验结果表明，基于InternLM2-7B的InternLM-XComposer2在生成高质量的长文本多模态内容以及在各种基准测试中展现出色的视觉语言理解性能方面优于现有的多模态模型。在某些评估中，它甚至与GPT-4V和Gemini Pro媲美甚至超越，凸显了它在多模态理解领域的卓越能力。

InternLM-XComposer2模型系列的7B参数已经在https://github.com/InternLM/InternLM-XComposer上公开提供。

2、A Survey on Visual Anomaly Detection: Challenge, Approach, and Prospect

中文标题：视觉异常检测调查：挑战、方法和前景