本文按照模型https://github.com/yangjianxin1/GPT2-chitchat提供的数据预处理方法,从环境配置、预处理方法、结果展示两个方面介绍中文对话数据集的预处理方法。
一、数据集介绍
本文采用50w中文闲聊语料作为预处理数据集百度网盘【提取码:4g5e】 ,中文闲聊语料的内容样例如下:
谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某,还有你
这个某某某用的好你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊今天好点了吗?
一天比一天严重
吃药不管用,去打一针。别拖着
二、环境配置
python 3.6
pytorch 1.7.0
transfomers 4.4.2
1、创建新的环境(eg.gpt)
conda create -n your_name python==3.6
2、激活环境并进入
conda activate gpt
3、使用conda安装pytorch1.7.0(CPU版本)