马斯克旗下 xAI 推出首款多模态模型Grok-1.5V

马斯克旗下 xAI 推出首款多模态模型Grok-1.5V

在这里插入图片描述

4月13日,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。

自2023年11月推出聊天机器人Grok以来,马斯克xAI一直在追赶OpenAI的步伐。在刚刚过去的1个月内,xAI相继宣布将Grok-1开源、推出128k长文本Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。

xAI 重点展示了Grok-1.5V的7个示例,包括:

  • 将手绘图表转换成Python代码
  • 看食品标签计算卡路里
  • 根据孩子的绘画讲个睡前故事
  • 解释梗图
  • 将表格转换成csv格式
  • 为生活日常问题答疑解惑
  • 解决代码问题

对于Grok-1.5V模型能力,官方给的基准测试结果如下:与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5相比,Grok-1.5V的表现不相上下,在一些基准测试中略胜一筹。

特别地,在RealWorld,用于衡量真实世界空间理解能力的QA基准测试中,Grok明显优于同类模型。

RealWorldQA基准测试
xAI宣布向社区发布RealWorldQA基准测试,计划随着其多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布,数据集大小为677MB。
初版RealWorldQA由700多张图片组成,每张图片都有一个问题和易于验证的答案。该数据集包括从汽车上拍摄的匿名图像,以及其他真实世界的图像。
数据集地址:https://creativecommons.org/licenses/by-nd/4.0/?ref=chooser-v1
在这里插入图片描述

在这里插入图片描述

目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。不过,博客中展示了 Grok-1.5V 的七个示例,这些更说明了 Grok-1.5V 在不同场景中的良好表现。

1.看草图,写代码

Grok-1.5V可以将手绘图表转换成Python代码。
在这里插入图片描述

用户:你能把它翻译成Python代码吗?
Grok:当然!您提供的流程图描述了一个简单的猜谜游戏,其中计算机生成一个随机数,用户必须猜测它。下面是表示流程图中逻辑的Python代码:

在这里插入图片描述

2.计算卡路里

Grok-1.5V 可以看食品标签计算卡路里。

在这里插入图片描述

用户:5片这个有多少卡路里?
Grok:
如果一份包含3片,总热量为60卡路里,那么5片的热量大约是100卡路里。
首先,确定每片的热量:60卡路里÷3片=20卡路里/片。
接着,将每片的热量乘以片数:20卡路里x5片=100卡路里。

3.根据绘画讲一个睡前故事

Grok-1.5V 可以根据孩子的绘画内容,讲述一个简短的睡前故事。
在这里插入图片描述

4.解释梗图

给Grok一张梗图,它也能“秒懂”。

在这里插入图片描述

5.将表格转换成csv格式

Grok能将表格转换为 CSV 文件格式。

在这里插入图片描述

用户:请将这个表转换为CSV格式。

Grok:图像中的表格可以转换成CSV格式,如下所示:
在这里插入图片描述

6.为生活日常问题答疑解惑

Grok也能用于解决生活日常问题。

地板上的木材腐烂了怎么办?

照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。

在这里插入图片描述

用户:这些洞出现在我甲板上的螺丝周围。它烂了吗?我应该换电路板吗?
Grok:甲板上的木材似乎已经开始腐烂。这表现在螺丝周围出现孔洞,这是木材腐烂的常见迹象。

为了确保露台的安全和使用寿命,建议更换受影响的木板。这将有助于防止其受到进一步损坏,并保持其结构的完整性。

如果您不确定如何更换木板,咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度,并就最佳行动方案向您提供专家建议。

7.解决编程问题

Grok处理编码问题也游刃有余。

在这里插入图片描述

用户:你能写出解决这个问题的Python代码吗?
Grok:
在这里插入图片描述

最后,xAI团队认为,推进其多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。

在接下来的几个月里,xAI 预计将在图像、音频、视频等各种模态上对这两种功能进行重大改进。

参考:
https://x.ai/blog/grok-1.5v

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值