OpenChat：性能高达105.7%，第一个超越ChatGPT的开源模型？

最新推荐文章于 2024-04-22 21:22:21 发布

代码讲故事

最新推荐文章于 2024-04-22 21:22:21 发布

阅读量1.1k

点赞数 27

分类专栏：学习资源文章标签： chatgpt OpenChat 开源大模型 LLMS llama 部署

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014374009/article/details/136430434

版权

学习资源专栏收录该内容

48 篇文章 3 订阅

订阅专栏

OpenChat：性能高达105.7%，第一个超越ChatGPT的开源模型？

前几天开源模型第一还是是Vicuna-33B、WizardLM，这不又换人了。对于开源模型的风起云涌，大家见怪不怪，不断更新的LLM榜单似乎也没那么吸引人了。

最近，开源模型 OpenChat 发布了新的版本，据说在 AlpacaEval 和 VicunaGPT-4 评估上的性能超过了ChatGPT。

在这里插入图片描述

这次#击败ChatGPT的开源模型#有些唬人，到底如何呢？

根据官方介绍，OpenChat 的性能表现：

在斯坦福AlpacaEval上，以80.9%的胜率位列开源模型第一；

在Vicuna GPT-4评测中，性能则达到了ChatGPT的105.7%。

在这里插入图片描述

PART 01

开源模型 OpenChat 超越 ChatGPT

OpenLLM 是一个在多样化且高质量的多轮对话数据集上进行微调的开源语言模型系列。

具体地，研究人员从约 90K 的ShareGPT对话中，过滤出约 6K 的GPT-4对话用于微调。清洗后的GPT-4对话与对话模板和回合结束时的token相结合，然后根据模型的上下文限制进行截断（超出限制的内容将被丢弃）。

数据处理流程包括三个步骤：

清洗：对HTML进行清理并转换为Markdown格式，删除格式错误的对话，删除包含被屏蔽词汇的对话，并进行基于哈希的精确去重处理

筛选：仅保留token为Model: GPT-4的对话

转换：为了模型的微调，针对所有的对话进行转换和分词处理

要运行数据处理流程，可执行以下命令：

./ochat/data/run_data_pipeline.sh INPUT_FOLDER OUTPUT_FOLDER

OpenLLM 被证明可以在有限的数据下实现高性能。
在这里插入图片描述
OpenLLM 有两个通用模型，即 OpenChat 和 OpenChat-8192。

OpenChat 模型是基于 LLaMA 模型进行微调的，它充分利用了极小、多样且高质量的多轮对话数据集。这样的数据集有助于 OpenChat 模型在对话场景中产生更准确、更自然的回复。

在这里插入图片描述

具体地，OpenChat：基于LLaMA-13B微调，上下文长度为2048

在 Vicuna GPT-4 评估中达到ChatGPT分数的105.7%

在 AlpacaEval 上取得了惊人的80.9%的胜率

具体地，OpenChat-8192：基于LLaMA-13B微调，上下文长度为8192
在 Vicuna GPT-4 评估中达到ChatGPT分数的106.6%

在 AlpacaEval 上取得的79.5%胜率

在这里插入图片描述
图注：Vicuna GPT-4评估（v.s. gpt-3.5-turbo）

在这里插入图片描述
图注：Vicuna GPT-3.5-Turbo评估（v.s. gpt-3.5-turbo）

除此之外，OpenLLM还有代码模型：

在 Vicuna GPT-4 评估中达到ChatGPT分数的102.5%

在 AlpacaEval 上获得78.7%的胜率

在这里插入图片描述

PART 02

OpenChat 安装和权重

要使用OpenLLM，需要安装CUDA和PyTorch。用户可以克隆这个资源库，并通过pip安装这些依赖：

git clone git@github.com:imoneoi/OChat.git
pip install -r requirements.txt

目前，官方提供所有模型的完整权重作为Hugging Face repos。用户可以使用以下命令来启动本地 API 服务器，网址是 http://localhost:18888。

在这里插入图片描述

该服务器与 ChatCompletions协议（请注意，有些功能不完全支持）和openai软件包兼容。用户可以通过设置来指定openai包的服务器：

openai.api_base = "http://localhost:18888/v1"

当前支持的ChatCompletions参数有：
在这里插入图片描述

PART 03

对 OpenChat 的争议

研究者采用的评估模式与 Vicuna 的略有不同，还使用了证据校准（EC）+平衡位置校准（BPC）来减少潜在的偏差。

在这里插入图片描述

虽然 OpenChat 模型在 AlpacaEval 和 VicunaGPT-4 评估中超越了ChatGPT，但这一消息并未引起网友的热烈讨论。争议声音认为 OpenChat 的评价方式夸张，并呼吁使用更高级的MT-bench基准进行评估。

为了回应这些争议，Vicuna官方回应称他们正在使用更高级的MT-bench基准进行评估。这一基准可以更全面地评估模型的性能，使评估结果更具有说服力。
在这里插入图片描述

OpenLLM 虽然够实现优秀的性能，但仍然受到其基础模型固有限制的限制，如：

复杂推理

数学和算术任务

编程和编码挑战

另外，OpenLLM 有时可能会产生不存在或不准确的信息，也称为「幻觉」。
这表明开源模型仍需要进一步改进，包括构建更好的基础模型和增加指令调优数据。无论如何，开源模型的发展仍然充满希望，我们期待未来能够看到更多的突破和进步。

参考：

https://github.com/imoneoi/openchat
https://tatsu-lab.github.io/alpaca_eval/

代码讲故事

关注

27
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
OpenChat：性能高达105.7%，第一个超越ChatGPT的开源模型？

OpenChat：性能高达105.7%，第一个超越ChatGPT的开源模型？
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

代码讲故事 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。