同屿Firmirin-CSDN博客

原创国内经典多模态大模型工作2——MiniCPM-V系列（MiniCPM-Llama3-V 2.5、MiniCPM-V-2.6解读）（持续更新）

MiniCPM-V系列是面壁智能推出的小参数量的开源多模态大模型，没有超过9B的版本。主打小而强。官方目前只放出了MiniCPM-Llama3-V 2.5的paper，2.0只有技术博客而且主要是效果展示。目前一共出了以下几代：MiniCPM-V、MiniCPM-V 2.0、MiniCPM-Llama3-V 2.5、MiniCPM-V 2.6。项目地址：https://github.com/OpenBMB/MiniCPM-V。

2024-10-12 11:02:42 2525

原创国内经典多模态大模型工作1——Qwen-VL系列（Qwen-VL、Qwen2-VL解读）

Qwen-VL家族论文解读

2024-10-09 20:16:10 4149

原创【MLLM阅读笔记-10】Groma精读: Localized Visual Tokenization for Grounding Multimodal Large Language Models

论文：《Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models》Github：纯手打，非机翻。

2024-09-02 16:29:33 1131

原创【MLLM阅读笔记-11】EAGLE精读，英伟达探索MLLM的视觉编码器混合：Exploring The Design Space for Multimodal LLMs with Mixture o

论文：《EAGLE: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders》Github：https://github.com/NVlabs/Eagle实验很多。对MLLM的视觉编码器的融合的一次对比。包括主要的不同任务的ViT的对比，不同融合策略的对比，不同模型组合的对比。验证了MLLM训练时把ViT放开很重要（之前很多工作都是冻结的）。针对多ViT组合的模型，搞了一个"预对齐"，用一个冻结的LLM把不同

2024-09-02 16:25:01 1527

原创【MLLM阅读笔记-9】KOSMOS-2精读，多模态大模型目标检测：Grounding Multimodal Large Language Models to the World

论文标题：KOSMOS-2: Grounding Multimodal Large Language Models to the WorldGitHub：https://aka.ms/GeneralAI需要部署教程的话在评论区提，作者会更的。强调grounding能力的多模态大模型。构建了大规模的定位图文对数据集GRIT。能用于各种定位相关的下游任务。并非通用MLLM，没有做MME等基准的实验，可以视为一个可对话的OVD检测模型，带caption功能。先强调了一下grounding能力的重要性和

2024-08-30 17:24:40 2085

原创 Kosmos-2的部署和测试教程（huggingface版）

官方提供了两种使用方式，一种是用github上的，下载pt文件，但配置环境非常繁琐。分别提供了docker，和conda环境两种配置。笔者失败了，还好huggingface的环境很好配置，我直接用的LLaVA的环境。

2024-08-30 17:20:20 1033

原创目标检测多模态大模型实践：貌似是全网唯一Shikra的部署和测试教程，内含各种踩坑以及demo代码

Shikra实战

2024-08-22 16:21:13 1927 11

原创【MLLM阅读笔记-8】VisionLLM v2精读： An End-to-End Generalist Multimodal Large Language Model

文章：VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksGitHub：https://github.com/OpenGVLab/VisionLLM本文的Introduction写得很好，用MLLM做各种下游任务，特别是较难任务的同学们可以看一下原文。当前的 MLLM 输出以文本形式，这极大地限制了它们表示结构化或视觉信息的能力。现在的一些

2024-08-19 18:50:46 1983

原创【多模态大模型paper阅读笔记-7】Shikra精读，多模态大模型目标检测：Unleashing Multimodal LLM‘s Referential Dialogue Magic

论文：Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic揭示了mlms在理解和参与参考对话(人类沟通的一个组成部分)方面的关键差距。为了解决这个问题，我们引入了Shikra，这是一个统一的、简单的模型，旨在以自然语言理解和输出空间坐标。我们的方法不需要额外的词汇表、位置编码器或外部插件，从而保持了模型的简单性。

2024-08-19 10:32:57 1338

原创 LLaVA部署报错：ImportError: cannot import name ‘LlavaLlamaForCausalLM‘ from ‘llava.model‘

【代码】LLaVA部署报错：ImportError: cannot import name ‘LlavaLlamaForCausalLM‘ from ‘llava.model‘

2024-07-31 15:24:12 4688 6

原创（AAAI24）CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model，借助视觉语言模型的泛化视线估计

AAAI24论文名：CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model。

2024-07-30 11:55:28 1412

原创 LLaVA微调debug：binascii.Error: Invalid base64-encoded string: number of data characters (678697) canno

注意版本问题，选择适合自己的。

2024-07-29 16:22:56 658

原创 LLaVA微调debug：ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:

flash-attn版本问题，到官网上下载对应自己cuda和torch版本的whl文件，再安装，注意我一开始下了这种TRUE的版本，出现了以上错误，改下FALSE版本后解决。注意是那个TRUE和FALSE的问题！

2024-07-29 16:20:33 4063 4

原创为什么多模态大模型中使用Q-Former的工作变少了？附Q-Former结构简介

面试中遇到的问题，自己在实践中注意到了却没有深究原因，没有回答好，特此记录和探讨这个问题。多模态大模型中需要一个输入投影模块，将视觉特征投射到LLM能理解的语言特征维度，这里就可以选择各种不同的模块。LLaVA最初用了简单的线性投射，然而作者提到这么做是为了做实验更快一点，使用复杂的模块可能会有更好的效果。后来就有用MLP的，代表工作有LLaVA后续系列、Intern-VL。还有用Q-Former的，这个是BLIP2提出的，代表工作还有Qwen-VL。

2024-07-26 11:46:51 4365

原创【多模态大模型paper阅读笔记-6】Grounding多模态，LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

模型输入图像和用户指令，输出带有边界框的图像描述，每个边界框对应一个短语。

2024-07-26 10:15:25 4199

原创大模型微调框架swift简介

Tuners参数高效调优内存高效调优

2024-07-24 18:19:21 708

原创【多模态大模型paper阅读笔记-5】LLaVA：Visual Instruction Tuning，5千字精读，最适合入门多模态大模型的工作

LLaVA（视觉指令微调）论文精读

2024-07-24 18:13:27 2375

原创 MiniCPMV微调bug：ninja: build stopped: subcommand failed. CalledProcessError: Command ‘[‘ninja‘, ‘-v‘]

完整的报错信息非常之长，我一直在尝试解决后面的报错，忽略了ninja这个根本问题，浪费了两天时间，版本误我啊。为什么issue里没人说这个问题呢？最后会放下完整的报错，遇到诸如以下报错的也可以看看是不是前面有个ninja的报错。

2024-07-11 16:19:26 2000

原创 pytorch中的两种转置.T和.t()

在 PyTorch 中，.T 和 .t() 都是用于对张量进行转置操作的，但它们有一些关键的区别。

2024-07-10 17:43:33 952

原创 MiniCPM-V2.5大模型微调：cusparse.h: No such file or directory...libcudart.so.11.0: cannot open shared ob

使用MiniCPM-V2.5大模型微调遇到的cuda问题

2024-07-10 13:57:58 1299

原创一种人脸图像增强方式：人脸随机裁切+使用噪声和高斯模糊模拟低像素相机拍摄的图像

我常用的一种组合图像数据增强方式：随机裁剪+低像素相机模拟。

2024-06-27 17:52:01 575

原创【OCR多模态大模型paper阅读笔记--2】 LayoutLLM: Layout Instruction Tuning with Large Language Models for Document

目前使用扁平或layout文本来提示llm的方法，以及训练基于文档的mllm不能有效地捕获布局信息，限制了它们的0-shot文档理解能力。与现有的使用一般视觉预训练模型作为encoder的MLLM不同，本文将文档预训练模型作为encoder。分为文档级、区域级和段级，保证模型既能学习到文档的全局信息，又能学习到不同层次的详细信息。模型对问题有了更深入的理解，能够专注于相关区域，而不是在整个文档中搜索答案。现有的使用 MLLM 进行文档理解的工作也没有充分探索文档布局信息。文档级、区域级和段级。

2024-05-31 17:43:42 831

原创【OCR多模态大模型paper阅读笔记--4】InternLM-XComposer2-4KHD精读，8B文档理解新SOTA！中文能力优秀的OCR大模型

为了解决高分辨率图像处理中的挑战，本文提出了一种新型的多模态大模型——InternLM-XComposer2-4KHD。该模型能够处理从336像素到4K高清（3840×1600）及以上分辨率的图像。通过这种创新方法，模型在高分辨率图像理解任务中的表现得到了显著提升。

2024-05-31 11:09:03 1665 2

原创【多模态大模型学习--NLP基础知识1】word embedding词向量嵌入与bert模型（李宏毅）

缺陷：无法表征单词间的词义关系，如无法表示cat和dog都是动物，所以应该更接近。

2024-05-30 10:23:03 635

原创【多模态大模型阅读笔记--1】多模态大模型入门，MLLM综述：MM-LLMs: Recent Advances in MultiModal Large Language Models

- 归纳了现在多模态大模型的整体架构设计方向 - 提供了现有主流的 26 个多模态大模型 - 总结了提升多模态大模型性能的关键方法

2024-05-20 16:29:14 1949 1

原创【OCR多模态大模型paper阅读笔记--3】mPLUG-DocOwl1.5: Unified Structure Learning for OCR-free Document Understandi

来自阿里的文档理解开源大模型，对多模态闭源大模型挑战的一步。

2024-05-15 18:07:45 2324

原创【多模态大模型学习--模型训练踩坑】deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded use

错误的关键在于，Deepspeed的ZeRO优化器目前不支持自动调整优化器状态的分区(partitioning)，以适应从加载的检查点到当前配置的世界大小变化。在分布式训练中，“世界大小”指的是参与训练的进程数量，这里特指数据并行的进程数。手动调整配置: 需要手动确保加载检查点时的训练配置与保存时完全一致，即调整当前的world size为2，以匹配检查点的设置。总之，该错误是因为加载的训练状态与当前的分布式训练设置不匹配导致的，解决方法需要用户手动调整配置或重新考虑训练策略。

2024-05-15 15:50:37 1771 1

原创【多模态大模型学习--llava部署踩坑：conda虚拟环境flash-attn安装】RuntimeError: FlashAttention is only supported on CUDA11

flash-attn无法pip安装

2024-04-25 15:39:47 4133 2

原创【多模态大模型学习--llava部署踩坑：google.protobuf.message.DecodeError: Error parsing message】

大模型学习，安装flash-attn的踩坑过程

2024-04-25 10:30:21 2405 2

原创关于HBase中的中文数据显示为十六进制码

关于HBase中的中文数据显示为十六进制码在使用hbase ImportTsv命令将含中文的tsv文件从hdfs上传到hbase后，出现以下所示现象，中文字符显示为十六进制码。在hhase shell中，直接使用如下命令：scan 'zhihu',{COLUMNS => 'text::toString'} 这里’zhihu’为表名，text: 为列名会以中文格式显示：注意：该tsv文件已经是utf-8格式...

2021-07-20 09:44:34 2326 1

原创重启hadoop后没有NameNode需格式化

重启hadoop后没有NameNode需格式化此前hadoop的各种配置基本都是照网上各种文章抄的，最近发现了hadoop每次重启都没有namenode，必须格式化namenode。这样会丢失hdfs里的数据，随着实验进行，数据越来越多不舍得删了。于是终于开始解决问题。这是因为默认的hadoop.tmp.fir 会在每次关闭后清空，所以要改成自己设定的目录。先关掉hadoop我是在hadoop目录下新建dfs路径，再在下面新建name和data路径。mkdir /usr/local/hadoop/

2021-07-20 09:30:09 1706

Mugi_jiang的博客