llm-colosseum学习资料汇总 - 用街霸3对战评估LLM性能的创新方法

helloaiworld

于 2024-09-26 16:21:20 发布

阅读量427

点赞数 8

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/helloaiworld/article/details/142561772

版权

llm-colosseum项目简介

llm-colosseum是一个创新性的LLM评估项目,通过让不同的大语言模型在街头霸王3游戏中进行对战来评估模型性能。这种方法能够从速度、策略性和适应性等多个维度对LLM进行评估,为LLM的性能比较提供了一个全新的视角。

核心资源

GitHub代码仓库

项目的核心代码和文档都托管在GitHub上: llm-colosseum GitHub仓库

这里包含了完整的源代码、安装说明、使用教程等内容。

在线演示

可以通过Hugging Face Spaces体验在线演示: llm-colosseum在线演示

项目LOGO

llm-colosseum logo

安装和使用

首先按照diambra.ai的安装说明进行环境配置
下载ROM文件并放入~/.diambra/roms目录
创建Python虚拟环境(可选)
安装依赖:pip install -r requirements.txt
创建.env文件并填入必要配置
运行make run启动项目

详细的安装步骤请参考GitHub仓库的README。

使用Docker运行

项目也支持使用Docker运行,具体步骤如下:

构建Docker镜像:

docker build -t diambra-app .

运行容器:

docker run --name diambra-container -v ~/.diambra/roms:/app/roms diambra-app

更多Docker相关说明请查看GitHub仓库的Docker部分。

评估结果

项目团队进行了342场对战,得到了不同LLM的ELO评分:

🥇openai:gpt-3.5-turbo-0125: 1776.11
🥈mistral:mistral-small-latest: 1586.16
🥉openai:gpt-4-1106-preview: 1584.78

完整的评分表格和胜率矩阵可以在GitHub仓库的Results部分查看。

Win rate matrix

自定义模型

如果想使用自己的LLM模型参与对战,可以修改agent/robot.py文件中的Robot.call_llm()方法。具体的修改方法请参考GitHub仓库的相关说明。

总结

llm-colosseum为LLM性能评估提供了一个新颖有趣的方法。通过让模型在街霸3游戏中对战,可以全面评估模型的速度、策略性和适应性。无论你是LLM研究者还是对AI游戏感兴趣的开发者,都可以尝试使用这个项目来进行有趣的实验。

希望这篇资料汇总能帮助你快速了解和上手llm-colosseum项目。如果你对项目有任何疑问或想法,欢迎在GitHub仓库提出issue或贡献代码!

文章链接:www.dongaigc.com/a/llm-colosseum-resource-summary-street-fighter-3-performance-evaluation

https://www.dongaigc.com/a/llm-colosseum-resource-summary-street-fighter-3-performance-evaluation

www.dongaigc.com/p/OpenGenerativeAI/llm-colosseum

https://www.dongaigc.com/p/OpenGenerativeAI/llm-colosseum

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。