盘点一下免费开源中最重要的两款大模型,马斯克旗下 xAI 推出首款多模态模型Grok-1.5V,OpenChat:性能高达105.7%,第一个超越ChatGPT的开源模型?
4月13日,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。
自2023年11月推出聊天机器人Grok以来,马斯克xAI一直在追赶OpenAI的步伐。在刚刚过去的1个月内,xAI相继宣布将Grok-1开源、推出128k长文本Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。
xAI 重点展示了Grok-1.5V的7个示例,包括:
将手绘图表转换成Python代码
看食品标签计算卡路里
根据孩子的绘画讲个睡前故事
解释梗图
将表格转换成csv格式
为生活日常问题答疑解惑
解决代码问题
对于Grok-1.5V模型能力,官方给的基准测试结果如下:与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5相比,Grok-1.5V的表现不相上下,在一些基准测试中略胜一筹。
特别地,在RealWorld,用于衡量真实世界空间理解能力的QA基准测试中,Grok明显优于同类模型。
RealWorldQA基准测试
xAI宣布向社区发布RealWorldQA基准测试,计划随着其多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布,数据集大小为677MB。
初版RealWorldQA由700多张图片组成,每张图片都有一个问题和易于验证的答案。该数据集包括从汽车上拍摄的匿名图像,以及其他真实世界的图像。
数据集地址:https://creativecommons.org/licenses/by-nd/4.0/?ref=chooser-v1
目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。不过,博客中展示了 Grok-1.5V 的七个示例,这些更说明了 Grok-1.5V 在不同场景中的良好表现。
01 Grok-1.5V 看草图,写代码
Grok-1.5V可以将手绘图表转换成Python代码。
用户
你能把它翻译成Python代码吗?
Grok
当然!您提供的流程图描述了一个简单的猜谜游戏,其中计算机生成一个随机数,用户必须猜测它。下面是表示流程图中逻辑的Python代码:
02 Grok-1.5V 计算卡路里
Grok-1.5V 可以看食品标签计算卡路里。
用户
5片这个有多少卡路里?
Grok
如果一份包含3片,总热量为60卡路里,那么5片的热量大约是100卡路里。
首先,确定每片的热量:60卡路里÷3片=20卡路里/片。
接着,将每片的热量乘以片数:20卡路里x5片=100卡路里。
03 Grok-1.5V 根据绘画讲一个睡前故事
Grok-1.5V 可以根据孩子的绘画内容,讲述一个简短的睡前故事。
04 Grok-1.5V 解释梗图
给Grok一张梗图,它也能“秒懂”。
05 Grok-1.5V 将表格转换成csv格式
Grok能将表格转换为 CSV 文件格式。
用户
请将这个表转换为CSV格式。
Grok
图像中的表格可以转换成CSV格式,如下所示:
06 Grok-1.5V 为生活日常问题答疑解惑
Grok也能用于解决生活日常问题。
地板上的木材腐烂了怎么办?
照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。
用户
这些洞出现在我甲板上的螺丝周围。它烂了吗?我应该换电路板吗?
Grok
甲板上的木材似乎已经开始腐烂。这表现在螺丝周围出现孔洞,这是木材腐烂的常见迹象。
为了确保露台的安全和使用寿命,建议更换受影响的木板。这将有助于防止其受到进一步损坏,并保持其结构的完整性。
如果您不确定如何更换木板,咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度,并就最佳行动方案向您提供专家建议。
07 Grok-1.5V解决编程问题
Grok处理编码问题也游刃有余。
用户
你能写出解决这个问题的Python代码吗?
Grok
最后,xAI团队认为,推进其多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。
在接下来的几个月里,xAI 预计将在图像、音频、视频等各种模态上对这两种功能进行重大改进。
参考:
https://x.ai/blog/grok-1.5v
最近,开源模型 OpenChat 发布了新的版本,据说在 AlpacaEval 和 VicunaGPT-4 评估上的性能超过了ChatGPT。
这次#击败ChatGPT的开源模型#有些唬人,到底如何呢?
根据官方介绍,OpenChat 的性能表现:
在斯坦福AlpacaEval上,以80.9%的胜率位列开源模型第一;
在Vicuna GPT-4评测中,性能则达到了ChatGPT的105.7%。
PART 01
开源模型 OpenChat 超越 ChatGPT
OpenLLM 是一个在多样化且高质量的多轮对话数据集上进行微调的开源语言模型系列。
具体地,研究人员从约 90K 的ShareGPT对话中,过滤出约 6K 的GPT-4对话用于微调。清洗后的GPT-4对话与对话模板和回合结束时的token相结合,然后根据模型的上下文限制进行截断(超出限制的内容将被丢弃)。
数据处理流程包括三个步骤:
清洗:对HTML进行清理并转换为Markdown格式,删除格式错误的对话,删除包含被屏蔽词汇的对话,并进行基于哈希的精确去重处理
筛选:仅保留token为Model: GPT-4的对话
转换:为了模型的微调,针对所有的对话进行转换和分词处理
要运行数据处理流程,可执行以下命令:
./ochat/data/run_data_pipeline.sh INPUT_FOLDER OUTPUT_FOLDER
OpenLLM 被证明可以在有限的数据下实现高性能。
OpenLLM 有两个通用模型,即 OpenChat 和 OpenChat-8192。
OpenChat 模型是基于 LLaMA 模型进行微调的,它充分利用了极小、多样且高质量的多轮对话数据集。这样的数据集有助于 OpenChat 模型在对话场景中产生更准确、更自然的回复。
具体地,OpenChat:基于LLaMA-13B微调,上下文长度为2048
在 Vicuna GPT-4 评估中达到ChatGPT分数的105.7%
在 AlpacaEval 上取得了惊人的80.9%的胜率
具体地,OpenChat-8192:基于LLaMA-13B微调,上下文长度为8192
在 Vicuna GPT-4 评估中达到ChatGPT分数的106.6%
在 AlpacaEval 上取得的79.5%胜率
图注:Vicuna GPT-4评估(v.s. gpt-3.5-turbo)
图注:Vicuna GPT-3.5-Turbo评估(v.s. gpt-3.5-turbo)
除此之外,OpenLLM还有代码模型:
在 Vicuna GPT-4 评估中达到ChatGPT分数的102.5%
在 AlpacaEval 上获得78.7%的胜率
PART 02
OpenChat 安装和权重
要使用OpenLLM,需要安装CUDA和PyTorch。用户可以克隆这个资源库,并通过pip安装这些依赖:
git clone git@github.com:imoneoi/OChat.git
pip install -r requirements.txt
目前,官方提供所有模型的完整权重作为Hugging Face repos。用户可以使用以下命令来启动本地 API 服务器,网址是 http://localhost:18888。
该服务器与 ChatCompletions协议(请注意,有些功能不完全支持)和openai软件包兼容。用户可以通过设置来指定openai包的服务器:
openai.api_base = "http://localhost:18888/v1"
当前支持的ChatCompletions参数有:
PART 03
对 OpenChat 的争议
研究者采用的评估模式与 Vicuna 的略有不同,还使用了证据校准(EC)+平衡位置校准(BPC)来减少潜在的偏差。
虽然 OpenChat 模型在 AlpacaEval 和 VicunaGPT-4 评估中超越了ChatGPT,但这一消息并未引起网友的热烈讨论。争议声音认为 OpenChat 的评价方式夸张,并呼吁使用更高级的MT-bench基准进行评估。
为了回应这些争议,Vicuna官方回应称他们正在使用更高级的MT-bench基准进行评估。这一基准可以更全面地评估模型的性能,使评估结果更具有说服力。
OpenLLM 虽然够实现优秀的性能,但仍然受到其基础模型固有限制的限制,如:
复杂推理
数学和算术任务
编程和编码挑战
另外,OpenLLM 有时可能会产生不存在或不准确的信息,也称为「幻觉」。
这表明开源模型仍需要进一步改进,包括构建更好的基础模型和增加指令调优数据。无论如何,开源模型的发展仍然充满希望,我们期待未来能够看到更多的突破和进步。
参考:
https://github.com/imoneoi/openchat
https://tatsu-lab.github.io/alpaca_eval/