DialoGLUE 开源项目教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00221/article/details/142506013

DialoGLUE 开源项目教程

dialoglue DialoGLUE: A Natural Language Understanding Benchmark for Task-Oriented Dialogue 项目地址: https://gitcode.com/gh_mirrors/di/dialoglue

1. 项目介绍

DialoGLUE 是一个面向任务导向对话的自然语言理解基准测试。它旨在鼓励对话研究在基于表示的迁移、领域适应和样本高效任务学习方面的进展。DialoGLUE 包含了多个数据集，涵盖了不同领域的对话任务，如意图分类、槽位填充等。

主要特点

多数据集支持：支持 Banking77、HWU64、CLINC150、Restaurant8k、DSTC8、MultiWOZ 等多个数据集。
基准测试：提供了一个统一的基准测试框架，方便研究人员进行模型评估。
开源代码：提供了完整的代码库，包括数据下载、预处理、模型训练和评估等。

2. 项目快速启动

环境准备

首先，确保你已经安装了 Python 3.7 或更高版本，并安装了所需的依赖包。你可以通过以下命令安装依赖：

pip install -r requirements.txt

数据下载

下载并处理 DialoGLUE 基准测试所需的数据集：

bash download_data.sh

模型训练

以下是训练一个意图分类模型的示例代码：

python run.py \
  --train_data_path data_utils/dialoglue/banking/train.csv \
  --val_data_path data_utils/dialoglue/banking/val.csv \
  --test_data_path data_utils/dialoglue/banking/test.csv \
  --token_vocab_path bert-base-uncased-vocab.txt \
  --train_batch_size 32 --grad_accum 2 --dropout 0.1 --num_epochs 100 --learning_rate 6e-5 \
  --model_name_or_path convbert-dg --task intent --do_lowercase --max_seq_length 100 --mlm_pre --mlm_during --dump_outputs

模型评估

训练完成后，你可以使用以下命令进行模型评估：

python evaluate.py \
  --test_data_path data_utils/dialoglue/banking/test.csv \
  --model_path /path/to/your/model \
  --token_vocab_path bert-base-uncased-vocab.txt \
  --task intent --do_lowercase --max_seq_length 100