Shikra：新一代多模态大语言模型，理解指向，说出坐标

最新推荐文章于 2025-05-08 20:19:02 发布

TechBeat人工智能社区

最新推荐文章于 2025-05-08 20:19:02 发布

阅读量1.1k

点赞数

分类专栏：技术文章文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/hanseywho/article/details/131810488

版权

“ Shikra：解锁多模态语言模型参考对话的魔法”

Shikra和用户的对话案例

在人类的日常交流中，经常会关注场景中的不同区域或物体，双方都可以通过说话并指向这些区域来进行高效的信息交换。我们将这种对话模式称为参考对话（Referential Dialogue）💬；

如果多模态大语言模型（MLLM）擅长这项技能，它将带来许多令人兴奋的应用。例如，将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中，用户可以使用视线注视指示任何内容与AI对话。同时AI也可以通过高亮等形式来提示某些区域，实现与用户的高效交流；

本工作提出了 Shikra 模型，赋予了MLLM这样的参考对话的魔法，既可以理解位置输入，也可以产生位置输出。

论文链接：http://arxiv.org/abs/2306.15195
代码链接：GitHub - shikras/shikra

01 工作亮点

Shikra 能够理解用户输入的 Point/Box，并支持 Point/Box 的输出，可以和人类无缝地进行参考对话；
Shikra 设计简单统一，采用非拼接式设计，直接使用数字表示坐标，不需要额外的位置编码器、前/后目标检测器或外部插件模块，甚至不需要额外的词汇表。

02 模型效果

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

TechBeat人工智能社区

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

《深入浅出多模态》（一）：多模态模型论文最全总结

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

01-24

3384

本文为《深入浅出多模态》系列第一章，《多模态模型论文最全总结》将从整体介绍多模态模型发展，结合综述对各个模型按照发展时间线及发展对应关系进行介绍，后续将对其中经典及最新多模态模型进行解决，从具体论文、数据集、代码、模型结构、结果等角度分析，本专栏适合从事多模态小白及爱好者学习，欢迎大家关注，如有侵权请联系删除！

51-26 DriveMLM：多模态大模型与自动驾驶规划对齐

AIgraphX

03-04

1768

DriveMLM是来自上海AILab、港中文、商汤、斯坦福、南京大学和清华大学的工作。该模型使用各种传感器(如相机、激光雷达)、驾驶规则和用户指令作为输入，采用多模态LLM对AD系统的行为规划进行建模，做出驾驶决策并提供解释。该模型可以用于闭环自动驾驶，在Apollo等现有AD系统中即插即用。

参与评论您还未登录，请先登录后发表或查看评论

仅靠“口才”就能解决视觉任务！商汤提出Shikra：新一代多模态大模型

阿木寺的博客

07-02

416

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【多模态和Transformer】交流群“Shikra：解锁多模态语言模型参考对话的魔法 ”Shikra和用户的对话案例在人类的日常交流中，经常会关注场景中的不同区域或物体，双方都可以通过说话并指向这些区域来进行高效的信息交换。我们将这种对话模式称为参考对话（Referential Dialogue）；如果多...

商汤最新Shikra | 新一代多模态大模型

CV_Autobot的博客

07-05

400

作者|努力努力再努力的编辑| FightingCV点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【大模型】技术交流群“Shikra：解锁多模态语言模型参考对话的魔法 ”Shikra和用户的对话案例在人类的日常交流中，经常会关注场景中的不同区域或物体，双方都可以通过说话并指向这些区域来进行高效的信息交换。我们将这种对话模式称为参考对话（Refe...

从CLIP到DINO：多模态大语言模型中的视觉编码器

m0_59235945的博客

04-08

939

多模态大语言模型 (MLLMs) 通过整合视觉感知接口，在扩展大语言模型 (LLMs) 的能力方面取得了显著进展。尽管出现了令人兴奋的应用和各种指令调优数据，但现有方法通常依赖于CLIP或其变体作为视觉分支，并且仅仅提取深层特征。然而，这些方法缺乏对MLLMs中视觉编码器的全面分析。在本文中，我们对MLLMs中不同视觉编码器的有效性进行了广泛的研究。我们的研究结果表明，CLIP的浅层特征对于细粒度任务（例如接地和区域理解）具有特别的优势。

【论文笔记】Myriad: A Large Multimodal Model Applying Vision Experts for Industrial Anomaly Detection

ZHW-鲜橙大AI课题组的博客

03-18

943

笔记作者：乔幸荣，女，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：模式识别与智能系统电子邮件：2029518801@qq.com。

MM-LLMs: Recent Advances in MultiModal Large Language Models MM-LLMs: 多模态大语言模型的新进展（二）

qq_55923034的博客

11-26

950

—腾讯人工智能实验室、日本京都大学、阿联酋穆罕默德·本·扎耶德人工智能大学2024.2发布在arxiv 2024.8 发表在《Findings of the Association for Computational Linguistics: ACL 2024》上，属于中科院2区太长不看版-AI总结：在LLMs出现之前，已有多次对传统多模态预训练（MM PT）的调查。这些模型由于端到端训练需要大量计算资源，且在指令跟随、上下文学习（ICL）、思维链（CoT）和交互能力等方面存在不足。

NUS：训练大模型合成多模态数据

大模型任我行的博客

10-20

1054

如何利用多模态大语言模型（MLLM）生成多模态数据，以减少对人工标注和高成本商业模型的依赖？论文提出了一个名为Genixer的数据生成管道，能够利用现有的MLLM生成高质量的视觉指令调优数据，并贡献了两个开源数据生成模型以及两个高质量的多模态数据集。

基于对应点分类的对象识别报错

qq_25194681的博客

05-07

449

【代码】基于对应点分类的对象识别报错。

Qwen3 混合思维模版解读

qq128252的博客

05-07

809

在人工智能迅速发展的今天，大型语言模型（Large Language Models，简称LLM）正逐渐成为各类应用的核心组件。其中，对话模板（Chat Template）作为连接用户与模型的关键桥梁，对确保高质量的交互体验至关重要。本文将深入解析Qwen3使用的对话模板，揭示其如何优雅地处理多轮对话、工具调用等复杂场景。

英伟达语音识别模型论文速读：Token-and-Duration Transducer（TDT）架构

weixin_52582710的博客

05-05

1688

论文提出的 TDT 模型通过在传统 Transducer 模型中加入显式的持续时间建模，在语音识别、语音翻译和口语理解等多个序列任务中均优于传统 Transducer 模型。TDT 模型不仅在准确率上表现相当或更好，而且在推理速度上显著提升，最高可达 2.82 倍加速。此外，TDT 模型在抗噪声和处理重复 token 方面也展现出更强的鲁棒性。未来的工作将致力于进一步提高 TDT 模型的计算效率和准确性，并开发高效的 TDT 模型束搜索算法。

Deepseek基础-api key申请及应用(java)、硅基流动api key申请及应用(dify)

简单记录

05-05

1027

要识别的车票和发票图片。

深度解析语义分割评估指标：从基础到创新实践

最新发布

Loving_enjoy的博客

05-08

175

现象 | 可能原因 | 解决方案 || 场景描述 | mIoU | BW-IoU | TC-Score || 边界模糊（医疗CT） | 0.72 | **0.81** | 0.68 || 小目标密集（卫星图） | 0.58 | **0.66** | 0.61 || 快速运动（自动驾驶） | 0.65 | 0.63 | **0.79** |

HuggingFace与自然语言处理(从框架学习到经典项目实践）[ 01 API操作 ]

weixin_51265669的博客

05-08

893

本教程适用与第一次接触huggingface与相应框架和对nlp任务感兴趣的朋友，该栏目目前更新总结如下： Tokenizer：支持单句/双句编码，自动处理特殊符号和填充。批量编码提升效率，适合训练数据预处理。 Datasets：统一 API 处理多种格式数据（远程/本地）。内置排序、分桶、拆分等功能，简化数据准备流程。

元子与元组的关系解析：从简单到复杂大跨界大综合的融智学研究

geneculture的专栏

05-07

947

元子和元组的关系（两基本的超级大类，其中前者概括万事万物的基础范畴及其学科的基本单位，如：物理的量子，化学的元素以及生物的基因乃至天文的星体与地理成分等等；后者是由前者组合而成，且存在演绎推理的过程及其结构，表现为：各级各类结构并由数学加以抽象表达，由各门学科探究）。该理论体系以“道函数”为核心构建了一个横跨哲学、数学、物理与计算科学的统一认知框架，其核心思想与逻辑结构。该理论将计算复杂性问题（P vs NP）与时空相对性原理相结合，创造性地通过道函数的静动态形式差异揭示计算本质深层结构。

RAW 分区/驱动器问题解释：可以找回丢失的数据吗？

2302_82041293的博客

05-07

580

虽然有时会与文件系统类型混淆，但RAW只是存储设备或某个分区的状态，从操作系统的角度来看，它缺乏有效的文件系统。事实上，操作系统不会区分文件系统是缺失、损坏还是不支持其类型。它根本无法找到预期位于磁盘上特定位置的数据，因此无法识别应用的格式和文件的存储方式。因此，操作系统变得无法处理此分区/驱动器上的数据，并阻止对存储的访问，直到它收到可接受的结构。术语RAW在其他搭配中使用时也可能具有略有不同的含义，应将其分开：RAW 数据- 从源获取后未经过任何处理或修改的未修改数据集;RAW 文件。

广东省人工智能大模型备案信息公布，详细解析大模型备案

创孵猫大模型算法备案

05-06

1110

在人工智能飞速发展的当下，大模型作为核心技术驱动力，广泛应用于各个领域，从智能聊天机器人到精准的图像识别系统，从高效的智能写作助手到复杂的数据分析工具，其影响力无处不在。然而，随着大模型的快速发展，一系列问题也逐渐凸显，如数据隐私保护、内容合规性、算法偏见等。为了确保大模型技术健康、有序地发展，大模型备案制度应运而生，成为规范行业发展的关键一环。

清华大学：智能数据标注产业发展观察报告

Chienyang的博客

05-06

208

特别是在生成式人工智能和大模型快速发展的背景下，数据标注的规模和质量要求都达到了前所未有的高度。与此同时，传统人工标注模式面临效率低下、成本高昂等挑战，智能数据标注技术成为突破行业发展瓶颈的关键路径。通过技术创新、企业实践、人力资源管理保障和政策支持，智能标注不仅能够提升数据标注的效率和质量，还能在实现数据标注员个人发展的基础上，推动人工智能技术的广泛应用和健康发展。随着技术的不断进步和政策的选代完善，智能标注产业将迎来更加广阔的发展空间，为人工智能产业的持续发展提供坚实的数据及技术支持。