Fujisaki 项目使用教程
1. 项目目录结构及介绍
Fujisaki 项目的目录结构如下:
Fujisaki/
├── github_assets/
├── gitignore
├── Fujisaki_GPU_Stream.ipynb
├── LICENSE
├── README.md
├── config_example.py
├── cover_alpaca2jsonl.py
├── finetune.py
├── finetune_adv.py
├── infer.py
├── length.py
├── prompt.py
├── prompt_openai.py
├── prompt_util.py
├── requirements.txt
├── scrape_twitter.py
├── tokenize_dataset_rows.py
├── tweets_sample.md
├── twitter-parser.py
└── ...
目录结构介绍
github_assets/
: 存放项目相关的静态资源文件。gitignore
: Git 忽略文件配置。Fujisaki_GPU_Stream.ipynb
: Jupyter Notebook 文件,用于 GPU 流处理。LICENSE
: 项目许可证文件。README.md
: 项目说明文档。config_example.py
: 配置文件示例。cover_alpaca2jsonl.py
: 将 Alpaca 数据转换为 JSONL 格式的脚本。finetune.py
: 模型微调脚本。finetune_adv.py
: 高级模型微调脚本。infer.py
: 推理和对话脚本。length.py
: 计算数据集长度的脚本。prompt.py
: 提示工程脚本。prompt_openai.py
: 使用 OpenAI API 生成提示的脚本。prompt_util.py
: 提示工具脚本。requirements.txt
: 项目依赖文件。scrape_twitter.py
: 抓取 Twitter 数据的脚本。tokenize_dataset_rows.py
: 数据集行 tokenization 脚本。tweets_sample.md
: 推文样本文件。twitter-parser.py
: Twitter 数据解析脚本。
2. 项目启动文件介绍
项目的启动文件主要是 infer.py
,用于启动推理和对话功能。
infer.py
文件介绍
infer.py
是项目的核心启动文件,用于加载训练好的模型并进行推理和对话。你可以通过以下命令启动:
python3 infer.py <path_to_model>
在启动时,你可以通过命令行参数指定模型的路径。此外,文件内部还提供了调节 top-p
、top-k
和 temperature
等参数的选项,以便生成更多样化的回答。
3. 项目的配置文件介绍
项目的配置文件主要是 config_example.py
,它包含了项目运行所需的各种配置参数。
config_example.py
文件介绍
config_example.py
是一个配置文件示例,你需要将其重命名为 config.py
并根据实际情况修改其中的参数。以下是一些关键配置项的介绍:
OPENAI_API_KEY
: OpenAI API 密钥,用于调用 OpenAI API 生成提示。PARSE_REPLIES
: 是否解析回复推文,默认为False
。MAX_SEQ_LENGTH
: 最大序列长度,用于 tokenization。BATCH_SIZE
: 训练批次大小。LEARNING_RATE
: 学习率。LORA_RANK
: LoRA 模型的 rank 参数。
在修改配置文件后,确保将其保存为 config.py
,以便项目能够正确读取配置参数。
以上是 Fujisaki 项目的使用教程,涵盖了项目的目录结构、启动文件和配置文件的介绍。希望这些信息能帮助你更好地理解和使用该项目。