【LLMS评估方法】

最新推荐文章于 2024-09-27 16:14:00 发布

Ai君臣

最新推荐文章于 2024-09-27 16:14:00 发布

阅读量141

点赞数 2

文章标签：人工智能 llms

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuchenbaidu/article/details/141318852

版权

评估指令微调的大型语言模型（如聊天机器人）时，使用的一些方法：

模型表现评价：
- 对于测试集中第一个和最后一个指令，模型的回答是明确正确的。
- 第二个回答虽不完全正确，但接近。模型回答了“积云（cumulus cloud）”，而参考答案是“积雨云（cumulonimbus cloud）”。虽然两者不同，但值得注意的是，积云可以发展成积雨云，后者能够产生雷暴。
模型评价的复杂性：
- 相比于之前章节中对分类问题（如垃圾邮件分类）的简单准确率计算，评估指令微调的大型语言模型要复杂得多。
- 在分类问题中，我们可以通过计算正确分类标签的百分比来评估模型的准确性，但对于这些模型的评估，需要采用更复杂和多样化的方法。
模型评估的方法：
- 使用短回答和多项选择基准（如MMLU测试），评估模型的知识水平。
- 通过人类偏好对比，比较不同模型的性能，例如LMSYS聊天机器人竞技场。
- 使用自动化对话基准，通过另一个大型语言模型（如GPT-4）来评估模型的响应质量。例如，AlpacaEval是一个利用这种方法的工具。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ai君臣 学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。