中文对话数据集预处理

最新推荐文章于 2023-11-23 21:24:46 发布

qq_42999411

最新推荐文章于 2023-11-23 21:24:46 发布

阅读量1.3k

点赞数 1

文章标签： pytorch 人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42999411/article/details/128039423

版权

本文详细介绍了如何使用GPT2-chitchat模型提供的方法对50w中文闲聊语料进行预处理，包括环境配置、数据集介绍、预处理步骤及结果展示。在预处理过程中，涉及python、pytorch、transformers的安装，并通过preprocess.py脚本处理数据，最终得到.pkl格式的预处理文件。

摘要由CSDN通过智能技术生成

本文按照模型https://github.com/yangjianxin1/GPT2-chitchat提供的数据预处理方法，从环境配置、预处理方法、结果展示两个方面介绍中文对话数据集的预处理方法。

一、数据集介绍

本文采用50w中文闲聊语料作为预处理数据集百度网盘【提取码:4g5e】，中文闲聊语料的内容样例如下:

谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某，还有你
这个某某某用的好

你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊

今天好点了吗？
一天比一天严重
吃药不管用，去打一针。别拖着

二、环境配置

python 3.6

pytorch 1.7.0

transfomers 4.4.2

1、创建新的环境（eg.gpt）

conda create -n your_name python==3.6

2、激活环境并进入

conda activate gpt

3、使用conda安装pytorch1.7.0(CPU版本)

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

qq_42999411 CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

162万+: 周排名

201万+: 总排名

1904: 访问

: 等级

23: 积分

2: 粉丝

1: 获赞

4: 评论

1: 收藏

私信

关注

热门文章

最新评论

中文对话数据集预处理
Sdh2434512834: 网盘链接失效了，请问可以补一下吗？
中文对话数据集预处理
Earnestine: 网盘链接失效了，请问可以补一下吗？
中文对话数据集预处理
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED 解决办法

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。