要运行 LLMzip 项目,请按照以下步骤进行:
-
克隆代码库并进入目录:
git clone https://github.com/vcskaushik/LLMzip.git cd LLMzip
-
创建并激活 Conda 环境:
conda create --name llmzip python=3.8 conda activate llmzip
-
安装依赖项:
pip install -r requirements.txt
-
下载 LLaMA 模型权重和分词器:
请填写 Meta AI 的申请表 以获取模型权重和分词器的下载链接。 批准后,您将收到包含下载链接的电子邮件。 编辑download.sh
脚本,将其中的 URL 替换为您收到的链接,然后运行:bash download.sh
-
安装项目:
在项目目录中运行:pip install -e .
-
压缩文本文件:
使用以下命令压缩文本文件:torchrun --nproc_per_node 1 LLMzip_run.py \ --ckpt_dir $TARGET_FOLDER/model_size \ --tokenizer_path $TARGET_FOLDER/tokenizer.model \ --win_len 511 \ --text_file $TEXT_FILE \ --compression_folder $COMPRESSION_FOLDER
其中,
$TARGET_FOLDER
是包含模型权重和分词器的文件夹路径,$TEXT_FILE
是您要压缩的文本文件路径,$COMPRESSION_FOLDER
是存储压缩结果的文件夹路径。 -
解压缩文件:
要解压缩文件,请使用以下命令:torchrun --nproc_per_node 1 LLMzip_run.py \ --ckpt_dir $TARGET_FOLDER/model_size \ --tokenizer_path $TARGET_FOLDER/tokenizer.model \ --win_len 511 \ --text_file $TEXT_FILE \ --compression_folder $COMPRESSION_FOLDER \ --encode_decode 1
将
--encode_decode
参数设置为1
以进行解压缩操作。
请注意,LLMzip 项目依赖于 LLaMA 模型,您需要先获取模型权重和分词器。 此外,确保您的环境中已安装支持 CUDA 的 PyTorch,以充分利用 GPU 加速。