Skeleton-of-Thought (SoT) 项目使用教程

倪俊炼

于 2024-09-25 08:39:37 发布

阅读量777

点赞数 16

本文链接：https://blog.csdn.net/gitblog_01027/article/details/142512041

版权

Skeleton-of-Thought (SoT) 项目使用教程

sot [ICLR 2024] Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding 项目地址: https://gitcode.com/gh_mirrors/so/sot

1. 项目介绍

Skeleton-of-Thought (SoT) 是一个旨在减少大型语言模型（LLMs）端到端生成延迟的项目。当前大多数最先进的LLMs采用顺序解码方法，这导致了高生成延迟。SoT 通过模拟人类的思考和写作过程，首先引导LLMs生成答案的骨架，然后进行并行API调用或批量解码，以并行完成每个骨架点的内容。这不仅提供了显著的速度提升，还可能在某些问题类别上提高答案质量。

2. 项目快速启动

安装

首先，确保你使用的是 Python 3.8 到 3.10 版本。然后，通过以下命令安装项目：

pip install -e .

配置环境变量

对于使用 GPT-4 和 GPT-3.5 的 API，你需要设置相应的环境变量：

export OPENAI_API_KEY=<API key>
export ENGINE=<engine>
export API_BASE=<API base>

启动 Gradio 演示

在 demo/ 目录下运行以下命令来启动 Gradio 演示：

# 启动控制器
python controller.py

# 启动模型工作器
CUDA_VISIBLE_DEVICES=0 python model_worker.py --model-path <MODEL_NAME> --controller http://0.0.0.0:21001 --port 31000 --worker http://0.0.0.0:31000

# 启动 Gradio 网页演示
python gradio_web_server_multi.py