详细描述图像多模态中，怎么动态且高效地支持不同分辨率大小的图片的，以internVL2或qwenvl举例

最新推荐文章于 2025-03-10 00:15:00 发布

强化学习曾小健

最新推荐文章于 2025-03-10 00:15:00 发布

阅读量1k

点赞数 30

文章标签：人工智能

本文链接：https://blog.csdn.net/sinat_37574187/article/details/145956159

版权

详细描述图像多模态中，怎么动态且高效地支持不同分辨率大小的图片的，以internVL2或qwenvl举例

研究中...

步骤拆解

internVL2模型架构及多分辨率处理机制

InternVL2模型是一种多模态大语言模型，旨在融合视觉和语言模态，实现对图像和文本的联合理解和生成。其架构主要基于ViT（Vision Transformer）、Pixel Shuffle和MLP（多层感知机），并采用动态高分辨率处理机制。

模型架构

视觉编码器（Vision Transformer, ViT）：
- 使用标准的ViT架构，将图像分割为固定大小的patch，并将每个patch转换为嵌入表示，输入到Transformer模块以捕获全局信息。这种设计保留了图像的细粒度信息，适合多模态任务[18][19]。
- 视觉编码器参数量较大，例如InternVL-6B模型有60亿参数，能够处理高分辨率输入[29]。
Pixel Shuffle：
- 通过像素洗牌技术，将不同通道的特征拼接到一个通道上，从而减少计算资源消耗，同时提升视觉特征的解析度[19][22]。
MLP projector：
- 使用多层感知机进行跨模态对齐，将视觉和语言模态的嵌入表示进行融合，实现高效的跨模态信息传递[21][22]。
动态高分辨率处理：
- 支持动态调整图像分辨率，从低分辨率开始训练，逐渐过渡到高分辨率。这种策略有效减少了训练资源，同时保证了模型在高分辨率任务中的性能[1][27]。
- 动态高分辨率策略包括动态长宽比匹配、图像分割和缩放等操作，确保在处理不同输入图像时保持自然的长宽比[1]。

多分辨率处理机制

动态分辨率训练：
- 在训练过程中，根据输入图像的长宽比和分辨率，将图像切分为多个448x448像素的块，支持从1到12个图像块，以适应不同输入图像的长宽比[1]。
- 动态分辨率策略允许模型在训练过程中灵活调整图像切分策略，从而保留更多细节信息[1]。
高质量数据集：
- 使用高质量的双语数据集进行训练，确保模型在OCR和中文相关任务中表现出色[1]。
预训练与微调：
- 预训练阶段使用大规模公共数据集进行视觉-语言对比训练，然后通过微调进一步提升模型在特定任务上的性能[15]。

性能与特点

多模态任务表现：InternVL2在OCR、文本分类、数学推理等多模态任务中表现出色，尤其是在中文处理方面具有显著优势[1]。
双语支持：通过高质量的中英文双语数据集训练，模型具备强大的双语能力，能够处理复杂的多模态任务[1]。
轻量化设计：InternVL2-1B模型规模为1B参数，适合部署在资源有限的设备上[21]。

综上，InternVL2通过其先进的架构设计和动态高分辨率处理机制，在多模态任务中展现了卓越的性能和灵活性。

qwenvl模型架构及多分辨率处理机制

Qwen-VL模型的架构及多分辨率处理机制如下：

模型架构：
- Qwen-VL模型由三个主要组件组成：大型语言模型（LLM）、视觉编码器和位置感知的视觉-语言适配器[31][42][52]。
- 视觉编码器采用Vision Transformer (ViT)架构，基于OpenCLIP ViT-bigG模型，支持448x448分辨率的图像输入[31][54][56]。
- 语言模型初始化为Qwen-7B，具备强大的语言生成和理解能力[31][42][43]。
- 连接模块为单层交叉注意力（Cross-Attention）层，用于整合视觉和语言特征[31][52]。
多分辨率处理机制：
- Qwen-VL通过动态分辨率机制（Naive Dynamic Resolution）支持任意分辨率图像的输入，无需对图像进行下采样或切块[32][36][38]。
- 动态分辨率机制的核心是将不同分辨率的图像转换为动态数量的视觉令牌（tokens），最小只占用4个tokens，从而确保模型输入与图像原始信息的一致性[32][38][40]。
- 该机制通过修改ViT架构，移除了原始的绝对位置嵌入（absolute position embeddings），并引入了2D-RoPE（二维旋转位置嵌入），以保留图像的原始信息[40][46][48]。
- 在推理阶段，不同分辨率的图片被打包成一个序列，并通过控制打包长度以限制GPU的使用[44]。
技术优势：
- 动态分辨率机制模仿了人类视觉感知的自然方式，使模型能够更高效地处理不同分辨率的图像[32][36][38]。
- 通过统一处理图像和视频，Qwen-VL增强了视觉感知能力，并在多模态任务中表现出色[36][37][41]。
- 支持多语言输入和输出，适用于多种多模态任务，如图像描述、视觉问答、文档问答等[34][51][54]。

综上，Qwen-VL模型通过其创新的动态分辨率机制和多模态处理能力，在多模态任务中展现了卓越的性能和灵活性。

①中动态调整分辨率的技术实现

InternVL2模型中的动态高分辨率处理机制主要通过以下步骤实现：

动态宽高比匹配：模型从预定义的宽高比集合中动态匹配最优的宽高比，以保持图像的自然宽高比，从而减少失真。
图像切片：根据输入图像的分辨率和纵横比，将图像分割成448×448像素的块。训练过程中最多使用12个块，测试过程中最多使用40个块（支持4K分辨率）。
缩略图视图：创建一个缩略图以捕捉全局上下文，帮助模型更好地理解图像的整体结构。
像素洗牌技术：使用Pixel Shuffle操作将视觉token数量减少到原来的四分之一，降低计算开销，同时支持更高分辨率的图像处理。

这些步骤使得InternVL2能够灵活地处理不同尺寸和宽高比的图像，同时提高处理高分辨率图像时的计算效率[61][5][11]。

②中动态调整分辨率的技术实现

Qwen-VL模型中的动态分辨率调整技术主要通过以下方式实现：

Naive Dynamic Resolution：Qwen2-VL引入了Naive Dynamic Resolution机制，允许模型处理任意分辨率的图像，而无需将其分割成块。这一机制通过删除原始的绝对位置嵌入，改用2D RoPE（旋转位置编码）来捕获图像的二维位置信息，从而动态地将不同分辨率的图像转换为可变数量的视觉令牌（visual tokens）。这种方法不仅提高了模型对高分辨率图像的细节捕捉能力，还减少了低分辨率图像的冗余信息[76][47][82]。
视觉令牌压缩：在推理阶段，不同分辨率的图像被包装成一个序列，序列长度受控以限制GPU内存使用。通过一个简单的MLP层，相邻的2×2令牌被压缩到一个令牌，进一步减少了视觉令牌的数量，从而优化了计算资源的分配[76][47][82]。
多模态旋转位置嵌入（M-RoPE） ：Qwen2-VL将原始旋转嵌入分解为时间（高度和宽度）三个部分，分别用于文本、图像和视频输入。这种多模态旋转位置嵌入方法使模型能够有效建模多模态输入的位置信息，增强了模型对不同模态数据的理解和处理能力[76][47][82]。
训练策略：Qwen2-VL采用三阶段训练策略，包括预训练、细致理解视觉和文本信息的训练阶段，以及指令微调阶段。这种分阶段的训练方法确保了模型在不同任务中的高效性和准确性[76][47][82]。
硬件优化：Qwen2-VL利用阿里云的超高速CPFS存储和解码缓存技术，以及TPU、DP、PP等硬件资源的并行计算能力，进一步提升了模型的训练效率和推理性能[76][47][82]。

通过这些技术手段，Qwen2-VL实现了对任意分辨率图像的高效处理，同时保持了模型的灵活性和计算效率。

多模态模型中高效处理多分辨率的通用方法

在多模态模型中，高效处理多分辨率的通用方法主要包括以下几种策略：

图像模块化与切片策略：将高分辨率图像划分为较小的可变大小切片，以实现高效且可扩展的编码。例如，LLaVA-UHD模型通过图像模块化策略将原始分辨率的图像划分为更小的切片，并结合压缩模块和空间组合方案来优化处理效率。
多视角输入与自适应分辨率调整：通过多视角输入（如全局视图和局部视图）来平衡感知能力和效率。例如，一些模型采用多视角IIR图像输入，通过调整大小获得低分辨率图像，并通过分割得到高分辨率图像。
混合分辨率编码：采用两路视觉编码器，分别处理低分辨率和高分辨率图像。例如，LLaVA-HR模型针对不同分辨率采用不同的下采样率，生成不同形状的视觉特征，并将高分辨率特征融入到低分辨率特征中。
动态分辨率调整：根据输入图像的长宽比和分辨率动态调整编码策略。例如，InternVL 1.5模型根据图像的长宽比和输入分辨率，将图像分割为400到448个像素块，支持高达4K分辨率的输入。
裁剪与拼接策略：将高分辨率图像切割成多个子图，每个子图以低分辨率送入视觉编码器中进行处理，再将特征合并为全局特征。例如，EAGLE模型通过裁剪策略提升分辨率支持，并减少计算复杂度。
注意力模式与掩码策略：通过不同的注意力模式和掩码策略处理不同分辨率的数据。例如，FlashMask方法通过灵活的注意力掩码计算，有效处理多模态图文数据中的混合多分辨率。
联合超分辨率技术：利用给定的分割来估计低分辨率多模态图像的高分辨率版本。例如，联合超分辨率技术通过深度神经网络架构实现多模态图像的超分辨率。
优化计算资源与跨模态一致性：通过自适应分辨率调整、显著区域优先编码等方法优化计算资源并保持跨模态一致性。例如，一些研究提出通过显著区域优先编码来缓解高分辨率带来的性能瓶颈。

这些方法在提升多模态模型对高分辨率输入的处理能力的同时，也在努力平衡计算成本和性能。

①中与②中在计算效率上的优化策略对比

InternVL2和Qwen-VL在计算效率上的优化策略存在显著差异，主要体现在以下几个方面：

模型规模与训练数据：
- InternVL2：InternVL2通过渐进式扩展策略，显著减少了训练所需的计算资源。例如，InternVL2-78B仅使用了约1200亿个token进行训练，而Qwen2-VL则使用了累计1.4万亿个token。这种策略不仅降低了计算成本，还通过最大化预训练组件的复用，减少了冗余计算。
- Qwen-VL：Qwen-VL采用了更庞大的模型规模和更多的训练数据，这虽然提升了模型性能，但也增加了计算资源的需求。例如，Qwen2-VL处理了1.4万亿个token，这使得其在资源受限的环境中效率较低。
动态高分辨率策略：
- InternVL2：InternVL2采用了动态高分辨率策略，能够在保持计算效率的同时提高对细节的理解能力。这种策略特别适合需要精细解析的任务，如医学影像分析或微小物体识别。
- Qwen-VL：Qwen-VL也支持动态高分辨率处理，但其主要优化方向在于多模态数据的处理能力，特别是在视频理解和长文本理解任务中表现突出。
内存优化与推理加速：
- InternVL2：InternVL2通过内存优化技术（如awq_gemm和awq_dequantize）提升了推理吞吐量，同时支持单卡和多卡推理，进一步提高了计算效率。
- Qwen-VL：Qwen-VL在推理过程中也进行了优化，例如通过设置最小和最大像素值来平衡性能和成本。
数据增强与鲁棒性：
- InternVL2：InternVL2采用了随机JPEG压缩作为数据增强技术，提高了模型对噪声和压缩图像的鲁棒性，从而在不同图像质量下保持性能稳定。
- Qwen-VL：Qwen-VL同样采用了数据增强技术，但具体方法未详细说明，可能在不同任务中有所差异。
多模态数据处理能力：
- InternVL2：InternVL2在多模态数据处理方面表现出色，特别是在文档理解、信息图表QA、场景文本理解和OCR任务中表现优异。
- Qwen-VL：Qwen-VL在多模态数据处理上也具有强大的能力，特别是在视频理解和长文本理解任务中表现突出。

综上所述，InternVL2在计算效率上的优化主要体现在模型规模的精简、动态高分辨率策略的应用、内存优化和推理加速等方面，而Qwen-VL则更注重多模态数据处理能力和大规模训练数据的支持。两者各有优势，具体选择需根据实际应用场景和资源限制进行权衡。

最终回答

思考过程

好的，我现在需要详细回答用户关于图像多模态模型中如何动态高效支持不同分辨率的问题，以InternVL2和Qwen-VL为例。首先，我需要回顾我搜索到的资料，提取这两个模型处理多分辨率的关键技术。

首先看InternVL2的资料。根据等，InternVL2使用Vision Transformer（ViT）作为视觉编码器，并且支持动态高分辨率处理。具体来说，它会根据输入图像的分辨率和纵横比，将图像切分为多个448x448的块，最高支持4K分辨率。这样可以在保留细节的同时，避免因调整大小导致的信息损失。另外，InternVL2还采用了Pixel Shuffle操作，通过空间重构提升特征分辨率，减少计算开销。训练时采用动态分辨率策略，从低到高逐步过渡，节省资源。此外，资料提到InternVL2的视觉编码器与LLM的文本编码器对齐，可能进一步优化了跨模态的处理效率。

接下来是Qwen-VL的资料。等指出，Qwen-VL使用ViT作为视觉编码器，输入图像调整到特定分辨率，如448x448。但在更高版本的Qwen2-VL中（如），引入了Naive Dynamic Resolution，允许处理任意分辨率的图像，通过修改ViT结构，移除绝对位置编码，加入2D-RoPE来捕捉位置信息，并用MLP压缩相邻的视觉令牌。推理时，动态调整图像为可变数量的令牌，并控制序列长度以节省显存。此外，训练分为多个阶段，可能涉及不同分辨率的适应。

需要比较两者的高效处理机制。InternVL2的动态切块和Pixel Shuffle，而Qwen-VL（特别是Qwen2-VL）的动态分辨率调整和令牌压缩。还要注意两者的训练策略差异，如InternVL的分阶段训练和Qwen-VL的多任务预训练。

另外，资料中提到计算效率的优化策略对比，如等，显示InternVL2.5在训练时使用更少的token，通过渐进式扩展和数据增强技术（如随机JPEG压缩）提高效率，而Qwen-VL可能需要更多的token和处理步骤。

总结时，需要分点详述两者的方法，包括模型架构、动态处理机制、训练策略、优化技术等，并比较它们的异同。同时，引用对应的资料证据来支持每个观点。

在图像多模态模型中，动态且高效地支持不同分辨率图片的处理是提升模型泛化能力和任务性能的关键。InternVL2和Qwen-VL作为当前先进的多模态模型，分别通过独特的架构设计和训练策略实现了这一目标。以下从技术原理、实现机制和优化策略等角度进行详细分析：

一、InternVL2的动态高分辨率处理机制

1. 视觉编码器与动态切分策略

Vision Transformer（ViT）作为核心：InternVL2采用ViT作为视觉编码器，将图像分割为固定大小的patch（如448×448像素），并通过Transformer模块提取全局特征。
动态高分辨率切分：
- 自适应图像块划分：根据输入图像的分辨率和纵横比，动态切分为多个448×448的块，最高支持4K分辨率输入。例如，将一张高分辨率图像分割成若干子块，每个子块独立编码后融合全局信息。
- 纵横比匹配与全局缩略图：通过动态匹配预定义的长宽比，保持图像自然比例，同时生成全局缩略图以辅助模型理解整体场景。
优势：避免直接缩放导致的细节损失，特别适用于OCR、文档理解等需要细粒度信息的任务。

2. 计算效率优化

Pixel Shuffle操作：
- 特征空间重构：通过Pixel Shuffle（像素重排）对ViT输出的特征进行空间重组，在提升分辨率的同时减少视觉令牌数量，降低计算复杂度。
- 通道压缩：将相邻的2×2特征块合并为一个通道，显著减少后续Transformer层的输入维度。
渐进式训练策略：从低分辨率开始训练，逐步过渡到高分辨率，减少训练资源消耗，同时保证模型性能。

3. 多模态对齐与训练增强

跨模态对齐：通过MLP投影器将视觉特征与语言模型（如InternLM2-20B）的文本特征对齐，增强图文交互能力。
数据增强技术：
- 随机JPEG压缩：模拟真实场景中的图像退化，提升模型对噪声的鲁棒性。
- 损失重加权：平衡不同长度响应的损失贡献，避免对长文本或复杂图像的过拟合。

二、Qwen-VL的动态分辨率调整技术

1. 视觉编码器与分辨率适配

固定分辨率输入（早期版本） ：Qwen-VL初始版本采用固定分辨率（如448×448），通过ViT的步长划分patch（步长14）生成特征。
Qwen2-VL的升级：Naive Dynamic Resolution：
- 任意分辨率支持：修改ViT结构，移除绝对位置编码，引入2D旋转位置编码（2D-RoPE），动态处理任意分辨率的输入图像。
- 视觉令牌压缩：通过MLP层将相邻的2×2视觉令牌压缩为1个令牌，减少序列长度（如224×224图像压缩为66个令牌）。

2. 高效推理策略

动态序列包装：在推理阶段，将不同分辨率的图像打包为单一序列，通过控制序列长度优化GPU内存占用。
多模态位置编码：通过多模态旋转位置编码（M-RoPE），在高度、宽度和时间维度融合位置信息，统一处理图像与视频输入。

3. 分阶段训练与数据优化

三阶段训练流程：
1. 预训练：对齐视觉与语言特征，使用大规模图文对数据。
2. 多任务预训练：引入区域描述、检测数据等，增强细粒度理解能力。
3. 指令微调：冻结视觉编码器，优化语言模型和适配器模块，提升对话能力。
合成数据增强：生成合成OCR数据，强化文本定位与识别能力。

三、对比分析：InternVL2与Qwen-VL的优化策略

1. 动态分辨率实现方式

InternVL2：以固定块尺寸（448×448）切分图像，保留局部细节，依赖Pixel Shuffle减少计算量。
Qwen-VL：通过修改ViT支持任意分辨率，利用MLP压缩令牌，直接减少序列长度。

2. 训练效率

数据量对比：InternVL2.5-78B仅需1200亿token训练，而Qwen2-VL需1.4万亿token，前者通过渐进式扩展策略显著减少冗余计算。
增强技术差异：InternVL2采用随机JPEG压缩和损失重加权，Qwen-VL依赖多阶段训练和合成数据增强。

3. 适用场景

InternVL2：更适合高分辨率敏感任务（如OCR、医学影像），通过分块保留细节。
Qwen-VL：在动态分辨率场景下更灵活（如网页截图、自然图像），且支持视频输入。

四、通用方法总结

多模态模型高效处理多分辨率的通用技术包括：

图像分块与融合：如LLaVA-UHD将图像切分为可变大小的块，结合全局与局部视图。
特征压缩技术：通过Pixel Shuffle或MLP减少视觉令牌数量。
动态位置编码：引入2D-RoPE或M-RoPE，适应不同分辨率的空间关系。
渐进式训练：从低分辨率到高分辨率逐步训练，平衡效率与性能。

五、结论

InternVL2和Qwen-VL通过动态切分、特征压缩和高效训练策略，实现了对多分辨率图像的高效处理。InternVL2在细节保留和计算优化上更具优势，而Qwen-VL在灵活性和动态适应能力上表现突出。未来趋势可能结合两者的优势，例如分块策略与任意分辨率支持的结合，进一步提升多模态模型的实用性。

追问

来源

管理1. PDF

Research Paper. SCIENCE CHINA.

[2024-12-01]2.

VLMEvalKit 评测InternVL2及Qwen2VL实践. 飞书用户1672等.

[2024-09-01]3.

InternVL2：多模态理解大模型的最新进展. PaddleMIX团队.

[2023-07-05]4.

多模态大模型 intern_vl 2.0版本解读. OpenGVLab.

[2024-07]5.

InternVL2_5-78B：先进多模态大型语言模型系列. OpenGVLab.

[2024-12-09]6.

InternVL2_5-1B：多模态大型语言模型，支持图像和文本理解. OpenGVLab.

[2024-12-12]7.

InternVL2-26B - 全新多模态智能体实现长文本多图像及视频的智能理解. OpenGVLab.

[2024-07-27]8.

InternVL2在目标检测中的性能指标讨论. OpenGVLab.

[2024-09-07]9.

InternVL - 开源多模态模型包提供商业级性能. Chartmimic 团队.

[2024-08-01]10.

InternVL2_5-26B：多模态大型语言模型，融合视觉与语言理解. OpenGVLab.

[2024-12-10]11.

InternVL2_5-38B：先进的多模态大型语言模型系列. OpenGVLab.

[2024-12-09]12. PDF

Sa2VA: Marrying SAM2 with LLaVA. Haobo Yuan.

13.

InternVL模型最佳实践与使用指南. xuyongfu.

[2024-10-17]14.

书生大模型实战营L2G4000进阶岛

[2025-02-22]15. PDF

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks. Zhe Chen et al.

16. PDF

EMOVA——EMPOWERING LANGUAGE MODELS TO SEE, HEAR AND SPEAK WITH VIVID MOTIONS

17.

internvl2# 多模态大型语言模型规格与使用指南. OpenGVLab.

[2023-01-01]18.

第四期书生大模型实战营-第4关-L2G4000

[2025-02-12]19.

进阶关卡 - 第 4 关 InternVL 多模态模型部署微调实践

[2024-12-19]20. PDF

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models. Zhiyu.

21.

阿尼亚探索大模型：书生大模型实战营-进阶岛第4关（L2G4000）

[2025-01-18]22.

InternVL 多模态模型部署微调实践. 书生大模型.

[2024-11-16]23.

L2G4000 InternVL 部署微调实践闯关任务

[2024-11-04]24.

关于InternVL2的单卡、多卡推理. 不论如何未来很美好.

[2025-01-01]25.

基于PaddleMIX实现InternVL2多模态模型推理. 企鹅火烈鸟等.

[2024-09-25]26. PDF

OpenVINO工具套件产品概述

27.

书生大模型实战营第四期 L2G4000 InternVL 部署微调实践闯关任务

[2024-12-07]28.

L2G4000InternVL 多模态模型部署微调实践. 上海人工智能实验室.

[2024-12-10]29.

书生实战营第四期-进阶岛第四关-InternVL 多模态模型部署微调实践. 上海人工智能实验室OpenGVLab.

[2024-11-20]30.

InternVL 部署微调实践闯关任务

[2025-01-18]31.

Qwen-VL: 一个通用的视觉语言模型,用于理解、定位、文本阅读等

[2023-09-20]32. PDF

行业动态报告——政策与市场最新动向

33.

QwenLM 多模态版本. Alibaba Qwen team.

[2024-11]34.

多模态面试题：Qwen-VL模型架构的关键组成部分及其协同工作机制

[2024-01-31]35.

Qwen2_VL 模型更新与应用. Qwen 团队.

[1999-01-01]36.

Qwen2-VL系列：大型语言和多模态模型的最新进展. Wenbin Ge.

[2024-09-18]37.

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

[2024-09-18]38.

阿里巴巴开源Qwen2-VL：能理解超20分钟视频，媲美GPT-4o！. 阿里巴巴.

[2024-08-30]39.

多模态大模型: 盘点&Highlights part2. 延捷.

[2024-09-08]40.

小红书素材. 飞书用户8190.

[2024-12-26]41.

Qwen2-VL论文阅读笔记

[2024-10-21]42.

Qwen-VL：多功能视觉语言模型，能理解、能定位、能阅读等. 阿里.

[2023-09-24]43.

Qwen VL架构及其原理与OpenCLIP的详细解析. ModelScope魔搭社区.

[2024-07-08]44.

大模型系列：Qwen2-VL（2024.10）. Peng Wang et al. 通义千问等.

[2024-10-16]45. PDF

电子与通信行业二季度业绩分析及未来展望

46. PDF

AGUVIS: Unified Pure Vision Agents for Autonomous GUI Interaction

47.

Qwen2-VL: 增强视觉语言模型对任意分辨率世界的感知

[2024-10-09]48.

多模态大语言模型的技术与应用

[2010-01-01]49.

探索Qwen-VL：一个全栈式的视觉语言模型开发框架. QwenLM.

[2024-04-25]50. PDF

Anwen Hu, Haiyang Xu et al. “mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding.” ArXiv(2024).. Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou; Alibaba Group, Renmin University of China.

51.

Qwen-VL：阿里巴巴全能的视觉语言模型超越了GPT-4V. 阿里巴巴.

[2024-04-30]52.

Qwen-VL模型架构与训练流程详解. ModelScope魔搭社区.

[2024-04-25]53.

Qwen-VL 大规模视觉语言模型介绍与评测. QPanAI.

[2023-08-25]54.

阿里云开源通义千问多模态视觉模型Qwen-VL. 阿里云.

[2023-08-24]55.

ModelScope Qwen模型训练思路与问题探讨. 阿里云开发者社区.

[2024-01-03]56.

InternLM-XComposer2：自由形式文本图像合成与理解的视觉语言大模型

[2024-01-31]57. PDF

A Comprehensive Survey of LLM Alignment Techniques

[2024-01-01]58.

GitHub - leeguandong/XrayQwenVL: 基于qwenvl微调一个多模态Xray识别的大模型. leeguandong.

[2024-05-05]59. PDF

Question Aware Vision Transformer for Multimodal Reasoning. Yair Kittenplon et al.

60. PDF

从多模态联合预训练到多模态⼤语⾔模型. 魏忠钰（Wei et al.

[2023-12-03]61.

InternVL2.5L：多模态大模型初体验. OpenGVLab.

[2025-01-14]62.

Pixtral-Large-Instruct-2411：124B参数的多模态大型语言模型. Mistral AI.

[2024-11-19]63.

InternVL v1.5: 缩小与商业多模式模型的差距. OpenGVLab.

[2024-04-29]64.

Mini-InternVL：轻量级多模态大模型，4B 参数量媲美 InternVL2-76B. 上海AI实验室等.

[2025-01-19]65.

InternVL2_5-78B：多模态全能型大语言模型. OpenGVLab.

[2024-12-17]66.

[2024-08-01]67.

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？. 上海 AI 实验室 OpenGVLab 团队.

[2024-12-10]68.

InternVL 2.5：先进的多模态大型语言模型系列

[2024-12-28]69.

多模态大模型InternVL 2.5重磅发布

[2024-12-17]70.

Q-wen2vl/Internvl2.5 | 动态分辨率输入方案解读. 梦想成真.

[2024-12-13]71.

InternVL 2.5 介绍

[2024-12-12]72.

多模态大模型intern-vl 1.5 论文解读：How Far Are We to GPT-4V?

[2024-09-18]73.

InternVL 2.0：窗口token数8K，像素重排技术提升高分辨率图像处理能力

[2024-09-10]74.

InternVL模型架构和训练过程

[2024-08-02]75. PDF

关注国产AI大模型的创新布局. 万联证券研究所等.

[2024-09-02]76.

Qwen2-VL论文阅读笔记

[2024-12-11]77.

通义千问Qwen2-VL模型更新：动态分辨率支持与多模态位置嵌入. 通义千问团队.

[2024-08-31]78.

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution. Qwen Team等.

[2024-09-19]79.

Qwen2-VL 模型更新与架构改进. 通义千问团队.

[2024-08-30]80.

Qwen2-VL：可处理不同分辨率图像和视频的最新 VLM. Peng Wang等.

[2024-09-18]81.

Qwen2-VL模型分析与创新点探讨. ModelScope魔搭社区.

[2024-09-27]82.

Qwen Vl Vision Fine-Tuning Overview. Restackio.

83. PDF

Junyang Wang, Yuhang Wang et al. “An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation.” ArXiv(2023).. Junyang Wang, Yuhang Wang, Guohai Xu, Jing Zhang, Yukai Gu, Haitao Jia, Jiaqi Wang, Haiyang Xu, Ming Yan, Ji Zhang, Jitao Sang.

84.

Qwen2.5-VL 技术报告. 阿里云 Qwen 团队.

[2025-02-26]85.

突发，Qwen2.5 VL深夜发布！. 手机网易网.

[2025-01-28]86.

Qwen2.5-VL Technical Report

[2025-02-26]87.

Qwen2-VL：增强视觉语言模型对世界任意分辨率的感知能力

[2025-02-08]88.

Qwen2-VL技术报告：增强视觉语言模型的全球感知能力

[2024-11-18]89.

多模态大模型系列 | 18：Qwen2-VL(最新版)解读及其实战(精炼版). 阿里巴巴.

[2024-09]90.

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution. QwenTeam.

[2024-10-03]91. PDF

阿里发布开源多模态模型Qwen2-VL，多项性能超越GPT-4. 华龙证券研究所等.

[2024-09-01]92.

多模态模型中的动态分辨率总结

[2024-11-06]93.

多模态大模型：Qwen2-VL基本原理和推理部署实战. 阿里通义千问实验室.

[2024-08-30]94.

多场景高性能的国产开源大模型—Qwen2-VL. 阿里巴巴集团Qwen团队等.

[2024]95.

QWen2-VL增强视觉语言模型在任何分辨率下对世界的感知. Joao Carreira and Andrew Zisserman.

[2024-12-03]96. PDF

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use. Xueyu Hu et al.

97.

多模态大模型Qwen2的深入了解

[2024-11-18]98.

智鹭AI日报0916 - 多模态大模型研究进展

[2024-09-16]99. PDF

多模态大语言模型领域进展分享. 殷述康/博士在读.

100.

LLaVA-UHD：支持任意纵横比和大分辨率图像输入的大型多模态模型. 清华大学等.

[2024-09-18]101. PDF

A Modular Framework for 2D/3D and Multi-modal Segmentation with Joint Super-Resolution. Benjamin Lang.

102.

高效多模态大型语言模型（MLLMs）研究综述

103.

兆级长文本，已是一线大模型机构标配能力. 上海人工智能实验室等.

[2024-03-25]104.

高分辨率图像处理

[2010-10-25]105. PDF

2024中国多媒体大会会议手册. 中国图象图形学学会（CSIG） et al.

106.

轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便. 量子位.

[2024-06-17]107.

CSIG青年科学家会议2024论坛介绍. 中国图象图形学学会.

[2024-12-11]108. PDF

航天宏图（688066.SH）天权视觉大模型发布. 国信证券经济研究所.

[2023-05-21]109. PDF

Degradation-Resistant Unfolding Network for Heterogeneous Image Fusion. Chunming He et al.

110.

Parsera：轻量级Python库，用于使用大型语言模型进行网站抓取

[2024-08-19]111.

InternLM-XComposer2: A Pioneering Large Vision-Language Model for Advanced Text-Image Comprehension and Composition. QimingLee.

[2024-04-09]112.

多模态大语言模型（MLLM）的模型架构与训练范式

[2024-01-19]113.

分论坛九：多模态大模型. 中国科学技术大学.

[2024-01-01]114.

开箱即用的企业大模型应用平台. 王冠中百度在线网络技术(北京)有限公司资深研发工程师.

[2024-12-18]115.

大型多模态模型 LLaMA-HR: 兼顾高分辨率和速度

[2024-03-08]116. PDF

Nithin Gopalakrishnan Nair, W. G. C. Bandara et al. “Image Generation with Multimodal Priors using Denoising Diffusion Probabilistic Models.” ArXiv(2022).. Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara, Vishal M Patel.

117.

万字长文总结多模态大模型最新进展（Modality Bridging篇）

[2024-03-30]118. PDF

Iman Marivani, Evaggelia Tsiligianni et al. “Multimodal Image Super-resolution via Deep Unfolding with Side Information.” 2019 27th European Signal Processing Conference (EUSIPCO)(2019).. Iman Marivani, Evaggelia Tsiligianni, Bruno Cornelis, Nikos Deligiannis; Vrije Universiteit Brussel, Kapeldreef 75, B-3001 Leuven.

119.

飞桨首创 FlashMask：加速大模型灵活注意力掩码计算，长序列训练的利器. 飞桨.

[2024-11-01]120. PDF

A Multiresolution Method for Parameter Estimation of Diffusion Processes. S. C. Kou et al.

121. PDF

Multiresolution Representation of Shapes Based on Cell Complexes. Leila De Floriani et al.

122.

多模态大模型:基础架构. ccwgpt.

[2024-10-21]123. PDF

Research Issues in Data Modeling for Scientific Visualization. Gregory M. Nielson et al.

124. PDF

Multiresolutional Fault-Tolerant Sensor Integration and Object

125. PDF

Multiview pattern recognition methods for data visualization, embedding and clustering

126. PDF

COULD YOUR MULTIMODAL LLM CHALLENGE HIGH-RESOLUTION REAL-WORLD SCENAR?

127.

VLMEvalKit 评测InternVL2及Qwen2VL实践. 飞书用户1672等.

[2024-09-01]128.

vLLM for Python3.10+cu118

[2024-12-21]129.

InternVL2对比

[2024-12-28]130.

Qwen2.5-VL：强大的视觉语言模型. Qwen团队.

[2025-02-07]131.

GitHub - petercao/Qwen2-VL: Qwen2-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.. Qwen团队.

[2024-08-30]132. PDF

Pro——Journal of Machine Learning Research 25 (2024) 1-22. Journal of Machine Learning Research.

[2024-08-01]133.

国产开源最强？Qwen2-VL强势发布，效果实测！

[2014-07-01]134.

GitHub - ModelTC/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. The Chartmimic team.

[2024-08-01]135.

OpenGVLab/清华/南大/商汤/港大/港中文/中科大开源InternVL，首次将大规模视觉编码器与LLMs进行对齐. OpenGVLab.

[2023-12-26]136. PDF

Let’s ThinkOutsidethe Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation. Shanshan Zhong et al.

137. PDF

UI-Hawk: Unleashing the Screen Stream Understanding for Mobile GUI Agents. Anonymous ACL submission.

138.

提高自定义用例中MLLM性能的简单方法

[2016-03-13]139.

书生实战营 - L2G4000 InternVL 多模态模型部署微调实践

[2024-11-25]140.

R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models. Deng等.

[2024-10-18]141.

MyGit: 微信小程序. vllm-project.

[2024-09-12]142.

InternVL2 VS Qwen2-VL，多模态大模型评测实践. 上海人工智能实验室等.

[2024-10-29]143.

Qwen2-VL vs. MinCPM-V 2.6：结果可能没有你想得那么好. 千问团队.

[2024-07-09]144.

InternLM/InternVL系列多模态大模型核心技术解析. DefTruth等.

[2024-08-08]145.

Text4Seg: 重塑图像分割为文本生成

[2016-11-20]146.

GitHub - rsoorajs/ipex-llm: Accelerate local LLM inference and finetuning (LLaMA, Mistral, ChatGLM, Qwen, Baichuan, Mixtral, Gemma, Phi, etc.) on Intel CPU and GPU. rsoorajs.

[2024-07-18]