Knover 开源项目使用指南

最新推荐文章于 2025-04-04 16:14:45 发布

花化贵Ferdinand

最新推荐文章于 2025-04-04 16:14:45 发布

阅读量574

点赞数 9

本文链接：https://blog.csdn.net/gitblog_00614/article/details/140979050

版权

Knover 开源项目使用指南

KnoverLarge-scale open domain KNOwledge grounded conVERsation system based on PaddlePaddle项目地址:https://gitcode.com/gh_mirrors/kn/Knover

1. 项目介绍

Knover是一个基于PaddlePaddle的大型开放领域知识驱动对话系统工具包。它旨在帮助研究人员和开发者高效地进行大规模对话生成模型的训练及推理。Knover支持多种类型的对话模型，包括基于知识图谱的对话、多轮对话以及开放领域的闲聊等场景。

2. 快速启动

安装基础环境

确保你的环境中已安装Python版本>=3.7以及PaddlePaddle-GPU版本在1.8.0~1.8.5之间。此外还需要安装sentencepiece和termcolor。

克隆仓库

首先，通过Git将Knover仓库克隆到本地：

git clone https://github.com/PaddlePaddle/Knover.git
cd Knover

环境配置

可以通过以下命令来安装必要的依赖并设置开发环境：

pip3 install -e .

或者仅设置PYTHONPATH而不做安装：

export PYTHONPATH=/path/to/Knover:$PYTHONPATH

训练示例

假设你想要使用Plato模型进行对话生成。你可以运行以下命令来进行训练：

python train.py \
--model Plato \
--task DialogGeneration \
--vocab_path config/vocab.txt \
--spm_model_file config/spm.model \
--train_data ./data/train.jsonl \
--dev_data ./data/dev.jsonl \
--test_data ./data/test.jsonl \
--output_dir ./trained_models/plato \
--max_seq_len 512 \
--batch_size 16 \
--lr 1e-5 \
--num_train_epochs 3 \
--save_steps 1000 \
--logging_steps 100

其中./data/train.jsonl, ./data/dev.jsonl, 和./data/test.jsonl是你准备好的训练、验证和测试数据文件路径。

导出模型

完成训练后，为了便于部署，你可以导出训练好的模型。例如导出Plato模型：

python save_inference_model.py \
--model Plato \
--do_generation True \
--task DialogGeneration \
--vocab_path config/vocab.txt \
--spm_model_file config/spm.model \
--init_checkpoint trained_models/plato/model_best.pt \
--inference_model_path inference_models/plato \
--config_path config/12L.json