盘点一下免费开源中最重要的两款大模型，马斯克旗下 xAI 推出首款多模态模型Grok-1.5V，OpenChat：性能高达105.7%，第一个超越ChatGPT的开源模型？

最新推荐文章于 2024-09-19 15:24:53 发布

代码讲故事

最新推荐文章于 2024-09-19 15:24:53 发布

阅读量747

点赞数 19

分类专栏：智能工具学习资源文章标签： chatgpt 数据集免费开源 grok OpenChat 多模态模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014374009/article/details/139585716

版权

智能工具同时被 2 个专栏收录

78 篇文章 9 订阅

订阅专栏

54 篇文章 3 订阅

订阅专栏

盘点一下免费开源中最重要的两款大模型，马斯克旗下 xAI 推出首款多模态模型Grok-1.5V，OpenChat：性能高达105.7%，第一个超越ChatGPT的开源模型？

在这里插入图片描述

4月13日，马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外，Grok现在可以处理各种各样的视觉信息，包括文档、图表、图表、屏幕截图、照片，并能进行多学科推理。

自2023年11月推出聊天机器人Grok以来，马斯克xAI一直在追赶OpenAI的步伐。在刚刚过去的1个月内，xAI相继宣布将Grok-1开源、推出128k长文本Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。

xAI 重点展示了Grok-1.5V的7个示例，包括：

将手绘图表转换成Python代码

看食品标签计算卡路里

根据孩子的绘画讲个睡前故事

解释梗图

将表格转换成csv格式

为生活日常问题答疑解惑

解决代码问题
对于Grok-1.5V模型能力，官方给的基准测试结果如下：与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5相比，Grok-1.5V的表现不相上下，在一些基准测试中略胜一筹。

特别地，在RealWorld，用于衡量真实世界空间理解能力的QA基准测试中，Grok明显优于同类模型。

RealWorldQA基准测试
xAI宣布向社区发布RealWorldQA基准测试，计划随着其多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布，数据集大小为677MB。
初版RealWorldQA由700多张图片组成，每张图片都有一个问题和易于验证的答案。该数据集包括从汽车上拍摄的匿名图像，以及其他真实世界的图像。
数据集地址：https://creativecommons.org/licenses/by-nd/4.0/?ref=chooser-v1

在这里插入图片描述

在这里插入图片描述

目前，Grok-1.5V 还没有完全开放，但会很快提供给早期测试者和现有的 Grok 用户。不过，博客中展示了 Grok-1.5V 的七个示例，这些更说明了 Grok-1.5V 在不同场景中的良好表现。

01 Grok-1.5V 看草图，写代码
Grok-1.5V可以将手绘图表转换成Python代码。

用户
你能把它翻译成Python代码吗？
在这里插入图片描述

Grok

当然！您提供的流程图描述了一个简单的猜谜游戏，其中计算机生成一个随机数，用户必须猜测它。下面是表示流程图中逻辑的Python代码：

在这里插入图片描述

02 Grok-1.5V 计算卡路里
Grok-1.5V 可以看食品标签计算卡路里。

用户

5片这个有多少卡路里？

在这里插入图片描述

Grok

如果一份包含3片，总热量为60卡路里，那么5片的热量大约是100卡路里。
首先，确定每片的热量：60卡路里÷3片=20卡路里/片。
接着，将每片的热量乘以片数：20卡路里x5片=100卡路里。

03 Grok-1.5V 根据绘画讲一个睡前故事
Grok-1.5V 可以根据孩子的绘画内容，讲述一个简短的睡前故事。

在这里插入图片描述

04 Grok-1.5V 解释梗图
给Grok一张梗图，它也能“秒懂”。

在这里插入图片描述

05 Grok-1.5V 将表格转换成csv格式
Grok能将表格转换为 CSV 文件格式。

用户

请将这个表转换为CSV格式。

在这里插入图片描述

Grok

图像中的表格可以转换成CSV格式，如下所示：

在这里插入图片描述

06 Grok-1.5V 为生活日常问题答疑解惑
Grok也能用于解决生活日常问题。

地板上的木材腐烂了怎么办？

照片拍给Grok，它可以帮我们判断腐烂情况，还能给出合理的处理建议。

用户

这些洞出现在我甲板上的螺丝周围。它烂了吗？我应该换电路板吗？
在这里插入图片描述

Grok

甲板上的木材似乎已经开始腐烂。这表现在螺丝周围出现孔洞，这是木材腐烂的常见迹象。

为了确保露台的安全和使用寿命，建议更换受影响的木板。这将有助于防止其受到进一步损坏，并保持其结构的完整性。

如果您不确定如何更换木板，咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度，并就最佳行动方案向您提供专家建议。

07 Grok-1.5V解决编程问题
Grok处理编码问题也游刃有余。

用户

你能写出解决这个问题的Python代码吗？
在这里插入图片描述

Grok

在这里插入图片描述

最后，xAI团队认为，推进其多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。

在接下来的几个月里，xAI 预计将在图像、音频、视频等各种模态上对这两种功能进行重大改进。

参考：
https://x.ai/blog/grok-1.5v

最近，开源模型 OpenChat 发布了新的版本，据说在 AlpacaEval 和 VicunaGPT-4 评估上的性能超过了ChatGPT。

这次#击败ChatGPT的开源模型#有些唬人，到底如何呢？

根据官方介绍，OpenChat 的性能表现：

在斯坦福AlpacaEval上，以80.9%的胜率位列开源模型第一；

在Vicuna GPT-4评测中，性能则达到了ChatGPT的105.7%。

在这里插入图片描述

PART 01

开源模型 OpenChat 超越 ChatGPT

OpenLLM 是一个在多样化且高质量的多轮对话数据集上进行微调的开源语言模型系列。

具体地，研究人员从约 90K 的ShareGPT对话中，过滤出约 6K 的GPT-4对话用于微调。清洗后的GPT-4对话与对话模板和回合结束时的token相结合，然后根据模型的上下文限制进行截断（超出限制的内容将被丢弃）。

数据处理流程包括三个步骤：

清洗：对HTML进行清理并转换为Markdown格式，删除格式错误的对话，删除包含被屏蔽词汇的对话，并进行基于哈希的精确去重处理

筛选：仅保留token为Model: GPT-4的对话

转换：为了模型的微调，针对所有的对话进行转换和分词处理

要运行数据处理流程，可执行以下命令：

./ochat/data/run_data_pipeline.sh INPUT_FOLDER OUTPUT_FOLDER

OpenLLM 被证明可以在有限的数据下实现高性能。

在这里插入图片描述

OpenLLM 有两个通用模型，即 OpenChat 和 OpenChat-8192。

OpenChat 模型是基于 LLaMA 模型进行微调的，它充分利用了极小、多样且高质量的多轮对话数据集。这样的数据集有助于 OpenChat 模型在对话场景中产生更准确、更自然的回复。

在这里插入图片描述

具体地，OpenChat：基于LLaMA-13B微调，上下文长度为2048

在 Vicuna GPT-4 评估中达到ChatGPT分数的105.7%

在 AlpacaEval 上取得了惊人的80.9%的胜率

具体地，OpenChat-8192：基于LLaMA-13B微调，上下文长度为8192
在 Vicuna GPT-4 评估中达到ChatGPT分数的106.6%

在 AlpacaEval 上取得的79.5%胜率

在这里插入图片描述
图注：Vicuna GPT-4评估（v.s. gpt-3.5-turbo）

在这里插入图片描述
图注：Vicuna GPT-3.5-Turbo评估（v.s. gpt-3.5-turbo）

除此之外，OpenLLM还有代码模型：

在 Vicuna GPT-4 评估中达到ChatGPT分数的102.5%

在 AlpacaEval 上获得78.7%的胜率

在这里插入图片描述

PART 02

OpenChat 安装和权重

要使用OpenLLM，需要安装CUDA和PyTorch。用户可以克隆这个资源库，并通过pip安装这些依赖：

git clone git@github.com:imoneoi/OChat.git
pip install -r requirements.txt

目前，官方提供所有模型的完整权重作为Hugging Face repos。用户可以使用以下命令来启动本地 API 服务器，网址是 http://localhost:18888。

在这里插入图片描述

该服务器与 ChatCompletions协议（请注意，有些功能不完全支持）和openai软件包兼容。用户可以通过设置来指定openai包的服务器：

openai.api_base = "http://localhost:18888/v1"

当前支持的ChatCompletions参数有：

在这里插入图片描述

PART 03

对 OpenChat 的争议

研究者采用的评估模式与 Vicuna 的略有不同，还使用了证据校准（EC）+平衡位置校准（BPC）来减少潜在的偏差。

在这里插入图片描述

虽然 OpenChat 模型在 AlpacaEval 和 VicunaGPT-4 评估中超越了ChatGPT，但这一消息并未引起网友的热烈讨论。争议声音认为 OpenChat 的评价方式夸张，并呼吁使用更高级的MT-bench基准进行评估。

为了回应这些争议，Vicuna官方回应称他们正在使用更高级的MT-bench基准进行评估。这一基准可以更全面地评估模型的性能，使评估结果更具有说服力。

在这里插入图片描述

OpenLLM 虽然够实现优秀的性能，但仍然受到其基础模型固有限制的限制，如：

复杂推理

数学和算术任务

编程和编码挑战

另外，OpenLLM 有时可能会产生不存在或不准确的信息，也称为「幻觉」。
这表明开源模型仍需要进一步改进，包括构建更好的基础模型和增加指令调优数据。无论如何，开源模型的发展仍然充满希望，我们期待未来能够看到更多的突破和进步。

参考：

https://github.com/imoneoi/openchat
https://tatsu-lab.github.io/alpaca_eval/

代码讲故事

关注

19
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

代码讲故事

CSDN认证博客专家 CSDN认证企业博客

码龄11年

944: 原创

342: 周排名

815: 总排名

197万+: 访问

: 等级

2万+: 积分

3万+: 粉丝

7638: 获赞

246: 评论

7759: 收藏

私信

关注

热门文章

分类专栏

最新评论

通用端到端OCR模型开源，拒绝多模态大模型降维打击，完全免费、可离线使用，2024最佳开源项目对比盘点整理，无需CA证书即可抓取HTTPS明文的工具，基于eBPF技术实现
m0_73945332: 这个模型可以微调吗
解决 invalid user: VMessAEAD is enforced and a non VMessAEAD connection is received.
Xander Yuan: 阿里云服务器方案一可行，方案二没试
轻松实现 Linux 搭建 KMS 服务器，想做什么就做什么（附所有资料）
代码讲故事: 文章最后一行给了下载链接呀
六万字长文详细分析AGI的应用方向和场景，解析多模态的生成能力，大模型微调实现AI Agent工作记忆、长期记忆，克隆任何人的语音、视频生成、AI玩游戏、AI陪伴、ERP助手、数字生命、打造超级智能体
清北互联木材: 这份文件详细探讨了AGI（通用人工智能）的应用方向和场景，以及多模态生成能力、AI Agent的记忆机制等多个关键领域。以下是核心内容提炼： AGI应用方向与场景：多领域应用：文章深入分析了AGI在多个领域的应用潜力，如AI玩游戏、AI陪伴、ERP助手等，展示了AGI技术的广泛适用性。数字生命与超级智能体：探讨了利用AGI技术打造数字生命和超级智能体的可能性，这些概念不仅具有科幻色彩，也代表了未来AI技术的一个重要发展方向。多模态生成能力：语音与视频克隆：介绍了通过大模型微调实现克隆任何人的语音和视频生成技术，这种能力在娱乐、教育、医疗等领域具有巨大潜力。内容创作：多模态生成能力还体现在内容创作上，AI可以生成文字、图像、音频等多种形式的内容，为内容创作者提供新的工具和灵感。 AI Agent的记忆机制：工作记忆与长期记忆：文章详细阐述了如何通过大模型微调实现AI Agent的工作记忆和长期记忆功能。这种记忆机制对于提高AI的智能水平和适应性至关重要。记忆机制的应用：介绍了记忆机制在AI陪伴、ERP助手等场景中的应用，这些应用能够显著提升用户体验和工作效率。 AI的发展方向争议：有趣与有用：讨论了AI应该更像人还是更像工具的争议。OpenAI CEO Sam Altman的观点认为AI应作为工具存在，而科幻作品中则常常描绘出更像人的AI形象。发展速度：除了方向上的争议外，文章还提到了AI发展的速度问题，即AI技术的快速发展对社会和伦理的影响。科幻与现实结合：科幻场景现实化：文章希望通过将科幻电影中的场景带到现实，推动AI技术的进一步发展和应用。伦理与道德考量：在实现这些科幻场景的过程中，需要充分考虑伦理和道德问题，确保AI技术的健康发展。技术细节与实现路径：大模型微调：详细介绍了大模型微调在实现多模态生成能力和AI Agent记忆机制中的关键作用。具体技术案例：通过具体的技术案例展示了AGI技术在不同领域的应用效果和发展趋势。总结与展望： AGI技术潜力巨大：文章总结了AGI技术的广泛应用潜力和发展前景，强调其在推动社会进步和改变人类生活方式方面的重要作用。持续探索与创新：展望了未来在AGI技术领域的持续探索和创新，期待更多突破性的进展和应用成果。这份文件不仅深入分析了AGI的应用方向和场景，还探讨了多模态生成能力
轻松实现 Linux 搭建 KMS 服务器，想做什么就做什么（附所有资料）
z451047442: 去哪里下载呢，看不到附件！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

代码讲故事 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。