同屿Firmirin
码龄5年
关注
提问 私信
  • 博客:29,930
    29,930
    总访问量
  • 31
    原创
  • 39,992
    排名
  • 939
    粉丝
  • 202
    铁粉
  • 学习成就

个人简介:中科院计算机专业研究生

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河北省
  • 加入CSDN时间: 2019-07-10
博客简介:

Mugi_jiang的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    429
    当月
    13
个人成就
  • 获得383次点赞
  • 内容获得13次评论
  • 获得329次收藏
  • 代码片获得814次分享
创作历程
  • 29篇
    2024年
  • 2篇
    2021年
成就勋章
TA的专栏
  • 多模态大模型
    15篇
  • 多模态大模型实战
    2篇
  • 多模态算法八股
  • 大模型debug笔记
    9篇
  • 注视估计gaze estimation
    1篇
兴趣领域 设置
  • 人工智能
    计算机视觉目标检测
  • AIGC
    chatgptAIGCpromptagi
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

国内经典多模态大模型工作2——MiniCPM-V系列(MiniCPM-Llama3-V 2.5、MiniCPM-V-2.6解读)(持续更新)

MiniCPM-V系列是面壁智能推出的小参数量的开源多模态大模型,没有超过9B的版本。主打小而强。官方目前只放出了MiniCPM-Llama3-V 2.5的paper,2.0只有技术博客而且主要是效果展示。目前一共出了以下几代:MiniCPM-V、MiniCPM-V 2.0、MiniCPM-Llama3-V 2.5、MiniCPM-V 2.6。项目地址:https://github.com/OpenBMB/MiniCPM-V。
原创
发布博客 2024.10.12 ·
1056 阅读 ·
19 点赞 ·
0 评论 ·
17 收藏

国内经典多模态大模型工作1——Qwen-VL系列(Qwen-VL、Qwen2-VL解读)

Qwen-VL家族论文解读
原创
发布博客 2024.10.09 ·
1405 阅读 ·
14 点赞 ·
0 评论 ·
15 收藏

【MLLM阅读笔记-10】Groma精读: Localized Visual Tokenization for Grounding Multimodal Large Language Models

论文:《Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models》Github:纯手打,非机翻。
原创
发布博客 2024.09.02 ·
655 阅读 ·
13 点赞 ·
0 评论 ·
15 收藏

【MLLM阅读笔记-11】EAGLE精读,英伟达探索MLLM的视觉编码器混合:Exploring The Design Space for Multimodal LLMs with Mixture o

论文:《EAGLE: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders》Github:https://github.com/NVlabs/Eagle实验很多。对MLLM的视觉编码器的融合的一次对比。包括主要的不同任务的ViT的对比,不同融合策略的对比,不同模型组合的对比。验证了MLLM训练时把ViT放开很重要(之前很多工作都是冻结的)。针对多ViT组合的模型,搞了一个"预对齐",用一个冻结的LLM把不同
原创
发布博客 2024.09.02 ·
962 阅读 ·
17 点赞 ·
0 评论 ·
10 收藏

【MLLM阅读笔记-9】KOSMOS-2精读,多模态大模型目标检测:Grounding Multimodal Large Language Models to the World

论文标题:KOSMOS-2: Grounding Multimodal Large Language Models to the WorldGitHub:https://aka.ms/GeneralAI需要部署教程的话在评论区提,作者会更的。强调grounding能力的多模态大模型。构建了大规模的定位图文对数据集GRIT。能用于各种定位相关的下游任务。并非通用MLLM,没有做MME等基准的实验,可以视为一个可对话的OVD检测模型,带caption功能。先强调了一下grounding能力的重要性和
原创
发布博客 2024.08.30 ·
1094 阅读 ·
24 点赞 ·
0 评论 ·
14 收藏

Kosmos-2的部署和测试教程(huggingface版)

官方提供了两种使用方式,一种是用github上的,下载pt文件,但配置环境非常繁琐。分别提供了docker,和conda环境两种配置。笔者失败了,还好huggingface的环境很好配置,我直接用的LLaVA的环境。
原创
发布博客 2024.08.30 ·
435 阅读 ·
7 点赞 ·
0 评论 ·
0 收藏

目标检测多模态大模型实践:貌似是全网唯一Shikra的部署和测试教程,内含各种踩坑以及demo代码

Shikra实战
原创
发布博客 2024.08.22 ·
1064 阅读 ·
17 点赞 ·
8 评论 ·
15 收藏

【MLLM阅读笔记-8】VisionLLM v2精读: An End-to-End Generalist Multimodal Large Language Model

文章:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksGitHub:https://github.com/OpenGVLab/VisionLLM本文的Introduction写得很好,用MLLM做各种下游任务,特别是较难任务的同学们可以看一下原文。当前的 MLLM 输出以文本形式,这极大地限制了它们表示结构化或视觉信息的能力。现在的一些
原创
发布博客 2024.08.19 ·
1065 阅读 ·
27 点赞 ·
0 评论 ·
28 收藏

【多模态大模型paper阅读笔记-7】Shikra精读,多模态大模型目标检测:Unleashing Multimodal LLM‘s Referential Dialogue Magic

论文:Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic揭示了mlms在理解和参与参考对话(人类沟通的一个组成部分)方面的关键差距。为了解决这个问题,我们引入了Shikra,这是一个统一的、简单的模型,旨在以自然语言理解和输出空间坐标。我们的方法不需要额外的词汇表、位置编码器或外部插件,从而保持了模型的简单性。
原创
发布博客 2024.08.19 ·
728 阅读 ·
16 点赞 ·
0 评论 ·
30 收藏

LLaVA部署报错:ImportError: cannot import name ‘LlavaLlamaForCausalLM‘ from ‘llava.model‘

【代码】LLaVA部署报错:ImportError: cannot import name ‘LlavaLlamaForCausalLM‘ from ‘llava.model‘
原创
发布博客 2024.07.31 ·
822 阅读 ·
4 点赞 ·
0 评论 ·
1 收藏

(AAAI24)CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model,借助视觉语言模型的泛化视线估计

AAAI24论文名:CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model。
原创
发布博客 2024.07.30 ·
913 阅读 ·
9 点赞 ·
0 评论 ·
22 收藏

LLaVA微调debug:binascii.Error: Invalid base64-encoded string: number of data characters (678697) canno

注意版本问题,选择适合自己的。
原创
发布博客 2024.07.29 ·
368 阅读 ·
5 点赞 ·
0 评论 ·
0 收藏

LLaVA微调debug:ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:

flash-attn版本问题,到官网上下载对应自己cuda和torch版本的whl文件,再安装,注意我一开始下了这种TRUE的版本,出现了以上错误,改下FALSE版本后解决。注意是那个TRUE和FALSE的问题!
原创
发布博客 2024.07.29 ·
809 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

为什么多模态大模型中使用Q-Former的工作变少了?附Q-Former结构简介

面试中遇到的问题,自己在实践中注意到了却没有深究原因,没有回答好,特此记录和探讨这个问题。多模态大模型中需要一个输入投影模块,将视觉特征投射到LLM能理解的语言特征维度,这里就可以选择各种不同的模块。LLaVA最初用了简单的线性投射,然而作者提到这么做是为了做实验更快一点,使用复杂的模块可能会有更好的效果。后来就有用MLP的,代表工作有LLaVA后续系列、Intern-VL。还有用Q-Former的,这个是BLIP2提出的,代表工作还有Qwen-VL。
原创
发布博客 2024.07.26 ·
1375 阅读 ·
26 点赞 ·
0 评论 ·
22 收藏

【多模态大模型paper阅读笔记-6】Grounding多模态,LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

模型输入图像和用户指令,输出带有边界框的图像描述,每个边界框对应一个短语。
原创
发布博客 2024.07.26 ·
1734 阅读 ·
29 点赞 ·
0 评论 ·
12 收藏

大模型微调框架swift简介

Tuners参数高效调优内存高效调优
原创
发布博客 2024.07.24 ·
276 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

【多模态大模型paper阅读笔记-5】LLaVA:Visual Instruction Tuning,5千字精读,最适合入门多模态大模型的工作

LLaVA(视觉指令微调)论文精读
原创
发布博客 2024.07.24 ·
1224 阅读 ·
33 点赞 ·
0 评论 ·
15 收藏

MiniCPMV微调bug:ninja: build stopped: subcommand failed. CalledProcessError: Command ‘[‘ninja‘, ‘-v‘]

完整的报错信息非常之长,我一直在尝试解决后面的报错,忽略了ninja这个根本问题,浪费了两天时间,版本误我啊。为什么issue里没人说这个问题呢?最后会放下完整的报错,遇到诸如以下报错的也可以看看是不是前面有个ninja的报错。
原创
发布博客 2024.07.11 ·
743 阅读 ·
10 点赞 ·
0 评论 ·
5 收藏

pytorch中的两种转置.T和.t()

在 PyTorch 中,.T 和 .t() 都是用于对张量进行转置操作的,但它们有一些关键的区别。
原创
发布博客 2024.07.10 ·
361 阅读 ·
4 点赞 ·
0 评论 ·
0 收藏

MiniCPM-V2.5大模型微调:cusparse.h: No such file or directory...libcudart.so.11.0: cannot open shared ob

使用MiniCPM-V2.5大模型微调遇到的cuda问题
原创
发布博客 2024.07.10 ·
530 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏
加载更多