马斯克旗下 xAI 推出首款多模态模型Grok-1.5V
4月13日,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。
自2023年11月推出聊天机器人Grok以来,马斯克xAI一直在追赶OpenAI的步伐。在刚刚过去的1个月内,xAI相继宣布将Grok-1开源、推出128k长文本Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。
xAI 重点展示了Grok-1.5V的7个示例,包括:
- 将手绘图表转换成Python代码
- 看食品标签计算卡路里
- 根据孩子的绘画讲个睡前故事
- 解释梗图
- 将表格转换成csv格式
- 为生活日常问题答疑解惑
- 解决代码问题
对于Grok-1.5V模型能力,官方给的基准测试结果如下:与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5相比,Grok-1.5V的表现不相上下,在一些基准测试中略胜一筹。
特别地,在RealWorld,用于衡量真实世界空间理解能力的QA基准测试中,Grok明显优于同类模型。
RealWorldQA基准测试
xAI宣布向社区发布RealWorldQA基准测试,计划随着其多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布,数据集大小为677MB。
初版RealWorldQA由700多张图片组成,每张图片都有一个问题和易于验证的答案。该数据集包括从汽车上拍摄的匿名图像,以及其他真实世界的图像。
数据集地址:https://creativecommons.org/licenses/by-nd/4.0/?ref=chooser-v1
目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。不过,博客中展示了 Grok-1.5V 的七个示例,这些更说明了 Grok-1.5V 在不同场景中的良好表现。
1.看草图,写代码
Grok-1.5V可以将手绘图表转换成Python代码。
用户:你能把它翻译成Python代码吗?
Grok:当然!您提供的流程图描述了一个简单的猜谜游戏,其中计算机生成一个随机数,用户必须猜测它。下面是表示流程图中逻辑的Python代码:
2.计算卡路里
Grok-1.5V 可以看食品标签计算卡路里。
用户:5片这个有多少卡路里?
Grok:
如果一份包含3片,总热量为60卡路里,那么5片的热量大约是100卡路里。
首先,确定每片的热量:60卡路里÷3片=20卡路里/片。
接着,将每片的热量乘以片数:20卡路里x5片=100卡路里。
3.根据绘画讲一个睡前故事
Grok-1.5V 可以根据孩子的绘画内容,讲述一个简短的睡前故事。
4.解释梗图
给Grok一张梗图,它也能“秒懂”。
5.将表格转换成csv格式
Grok能将表格转换为 CSV 文件格式。
用户:请将这个表转换为CSV格式。
Grok:图像中的表格可以转换成CSV格式,如下所示:
6.为生活日常问题答疑解惑
Grok也能用于解决生活日常问题。
地板上的木材腐烂了怎么办?
照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。
用户:这些洞出现在我甲板上的螺丝周围。它烂了吗?我应该换电路板吗?
Grok:甲板上的木材似乎已经开始腐烂。这表现在螺丝周围出现孔洞,这是木材腐烂的常见迹象。
为了确保露台的安全和使用寿命,建议更换受影响的木板。这将有助于防止其受到进一步损坏,并保持其结构的完整性。
如果您不确定如何更换木板,咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度,并就最佳行动方案向您提供专家建议。
7.解决编程问题
Grok处理编码问题也游刃有余。
用户:你能写出解决这个问题的Python代码吗?
Grok:
最后,xAI团队认为,推进其多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。
在接下来的几个月里,xAI 预计将在图像、音频、视频等各种模态上对这两种功能进行重大改进。
参考:
https://x.ai/blog/grok-1.5v
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
