基础大模型能像人类一样标注数据吗？

sam5198

于 2023-07-07 09:38:50 发布

阅读量434

点赞数

分类专栏： chatgpt 文章标签： chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/elinkenshujuxian/article/details/131590083

版权

自从 ChatGPT 出现以来，我们见证了大语言模型 (LLM) 领域前所未有的发展，尤其是对话类模型，经过微调以后可以根据给出的提示语 (prompt) 来完成相关要求和命令。

然而，直到如今我们也无法对比这些大模型的性能，因为缺乏一个统一的基准，难以严谨地去测试它们各自的性能。评测我们发给它们的指令以及对话模型本身，从本质上来讲就很困难，毕竟用户的评价标准都是围绕对回答的质量的主观感受; 而现有的自然语言处理任务的性能评价标准，却大多局限于特定指标和某些定量标准。

在这一领域，通常当一个新的大语言模型发布时，都会这么宣传: 我们的模型比在百分之多少的情况下优于 ChatGPT。这句话的潜在意思是，模型使用某些基于 GPT-4 的评价标准，在百分之多少的情况下优于 ChatGPT。这些分数实际想表达的是一种不同评价标准的代替方案: 由人类打标者提供的分数。利用人类反馈的强化学习 (RLHF) 大量提供了对比两个模型的接口和数据。这些从 RLHF 而来的数据被用来训练一个奖励模型，用以评判哪个回答是更好的，但为模型输出结果进行打分和排名的这一思想已经演变成了一种更通用的模型评测工具。

这里我们展示一些示例，分别来自我们的盲测数据中的 instruct 和 code-instruct 两个子集合。

从迭代速度来讲，使用一个语言

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sam5198 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。