自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_41879372的博客

晚风常带我想起ta

博客等级

码龄8年

0
原创

0
点赞

102
收藏

19
粉丝

关注

私信

热门文章

分类专栏

最新评论

Oceanbase大赛：数据库expression 表达式体系重构全流程详解（MiniOB）
Lee019118: 竟然不开付费观看，优质文章！
1.MiniOB 实现 DROP TABLE 功能个人总结
Lee019118: ndex里面没有handle_这个属性啊
1.MiniOB 实现 DROP TABLE 功能个人总结
Lee019118: talbe 类.h文件中的drop方法只有一个参数
聊天机器人竞技场排行榜第8周介绍MT-Bench和Vicuna-33B
CSDN-Ada助手: 恭喜您开始博客创作！标题中提到的聊天机器人竞技场排行榜第8周介绍了MT-Bench和Vicuna-33B，这是一个很有趣的话题。我希望您能继续分享更多关于这些聊天机器人的详细信息，例如它们的特点和性能表现。此外，您还可以考虑与读者分享您对未来聊天机器人发展的看法，或是探讨一些与聊天机器人相关的热门话题。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

人工智能

关注

文章平均质量分 95

关注数：文章数：1 文章阅读量：3855 文章收藏量：7

作者: 晚风常带我想起ta

大数据开发，北京交通大学计算机学院研究生在读

展开

专栏收录文章

聊天机器人竞技场排行榜第8周介绍MT-Bench和Vicuna-33B

本文介绍聊天机器人竞技场排行榜的更新,新增开源模型和三项评估指标:聊天机器人竞技场Elo、MT-Bench和MMLU。推出一系列Vicuna-v1.3模型。提出多轮对话基准测试MT-Bench,包含80个高质量问题,评估模型会话流程和遵循指令能力。与基于用户投票的对战平台聊天机器人竞技场配合使用。两者主要评估指标为人类偏好。探讨利用GPT-4等LLM作为评委的可靠性。显示谨慎使用下,LLM评委可以作为人类偏好的可扩展和可解释近似。基于GPT-4的MT-Bench单回答评分也能有效匹配人类偏好。

翻译 2023-07-14 17:08:40 · 3855 阅读 · 1 评论