LLMzip 项目-CSDN博客

本文链接：https://blog.csdn.net/nk1610099/article/details/143891840

要运行 LLMzip 项目，请按照以下步骤进行：

克隆代码库并进入目录：

git clone https://github.com/vcskaushik/LLMzip.git
cd LLMzip

创建并激活 Conda 环境：

conda create --name llmzip python=3.8
conda activate llmzip

安装依赖项：
```
pip install -r requirements.txt
```
下载 LLaMA 模型权重和分词器：
请填写 Meta AI 的申请表以获取模型权重和分词器的下载链接。批准后，您将收到包含下载链接的电子邮件。编辑 download.sh 脚本，将其中的 URL 替换为您收到的链接，然后运行：
```
bash download.sh
```
安装项目：
在项目目录中运行：
```
pip install -e .
```

压缩文本文件：
使用以下命令压缩文本文件：

torchrun --nproc_per_node 1 LLMzip_run.py \
  --ckpt_dir $TARGET_FOLDER/model_size \
  --tokenizer_path $TARGET_FOLDER/tokenizer.model \
  --win_len 511 \
  --text_file $TEXT_FILE \
  --compression_folder $COMPRESSION_FOLDER

其中，$TARGET_FOLDER 是包含模型权重和分词器的文件夹路径，$TEXT_FILE 是您要压缩的文本文件路径，$COMPRESSION_FOLDER 是存储压缩结果的文件夹路径。

解压缩文件：
要解压缩文件，请使用以下命令：

torchrun --nproc_per_node 1 LLMzip_run.py \
  --ckpt_dir $TARGET_FOLDER/model_size \
  --tokenizer_path $TARGET_FOLDER/tokenizer.model \
  --win_len 511 \
  --text_file $TEXT_FILE \
  --compression_folder $COMPRESSION_FOLDER \
  --encode_decode 1