LiveCodeBench 技术文档

LiveCodeBench 技术文档

LiveCodeBench Official repository for the paper "LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code" LiveCodeBench 项目地址: https://gitcode.com/gh_mirrors/li/LiveCodeBench

1. 安装指南

1.1 克隆仓库

首先,您需要克隆 LiveCodeBench 的 GitHub 仓库到本地:

git clone https://github.com/LiveCodeBench/LiveCodeBench.git
cd LiveCodeBench

1.2 安装依赖

我们推荐使用 poetry 来管理项目的依赖。您可以通过以下命令安装 poetry 并安装项目的依赖:

pip install poetry
poetry install

默认情况下,vllm 不会被安装。如果您需要安装 vllm,可以使用以下命令:

poetry install --with with-gpu

2. 项目使用说明

2.1 代码生成

LiveCodeBench 提供了代码生成的功能。您可以使用 vllm 进行推理,默认情况下,我们使用 tensor_parallel_size=${num_gpus} 来并行化推理。您可以通过 --tensor_parallel_size 标志来配置并行化的 GPU 数量。

运行代码生成的命令如下:

python -m lcb_runner.runner.main --model {model_name} --scenario codegeneration

您还可以使用 --use_cache 标志来缓存生成的输出,使用 --continue_existing 标志来使用现有的转储结果。如果您希望使用本地路径中的模型,可以额外提供 --local_model_path 标志,并指定模型的路径。

2.2 评估

我们计算 pass@1pass@5 指标来评估模型。您可以通过添加 --evaluate 标志来运行评估:

python -m lcb_runner.runner.main --model {model_name} --scenario codegeneration --evaluate

2.3 自修复

运行自修复时,您需要提供额外的 --codegen_n 标志,该标志映射到代码生成期间生成的代码数量。此外,--temperature 标志用于解析旧的代码生成评估文件,该文件必须存在于 output 目录中。

python -m lcb_runner.runner.main --model {model_name} --scenario selfrepair --codegen_n {num_codes_codegen} --n 1

2.4 测试输出预测

运行测试输出预测场景时,您可以简单地运行:

python -m lcb_runner.runner.main --model {model_name} --scenario testoutputprediction --evaluate

2.5 代码执行

运行代码执行场景时,您可以简单地运行:

python -m lcb_runner.runner.main --model {model_name} --scenario codeexecution --evaluate

我们还支持 COT 设置:

python -m lcb_runner.runner.main --model {model_name} --scenario codeexecution --cot_code_execution --evaluate

3. 项目API使用文档

3.1 自定义评估

您可以使用 lcb_runner/runner/custom_evaluator.py 直接评估自定义文件中的模型生成。文件应包含按基准问题顺序排列的模型输出列表。

python -m lcb_runner.runner.custom_evaluator --custom_output_file {path_to_custom_outputs}

输出格式如下:

[
    {"question_id": "id1", "code_list": ["code1", "code2"]},
    {"question_id": "id2", "code_list": ["code1", "code2"]}
]

3.2 添加新模型支持

要添加对新模型的支持,您可以在 lcb_runner/lm_styles.py 文件中添加新模型,并在 lcb_runner/prompts/generation.py 文件中为模型添加新的提示。

4. 项目安装方式

4.1 使用 Poetry 安装

我们推荐使用 poetry 来管理项目的依赖。您可以通过以下命令安装 poetry 并安装项目的依赖:

pip install poetry
poetry install

4.2 安装 vllm

默认情况下,vllm 不会被安装。如果您需要安装 vllm,可以使用以下命令:

poetry install --with with-gpu

通过以上步骤,您可以顺利安装并使用 LiveCodeBench 项目。

LiveCodeBench Official repository for the paper "LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code" LiveCodeBench 项目地址: https://gitcode.com/gh_mirrors/li/LiveCodeBench

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

巫子想

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值