自然语言处理数据集(自收集)、停用词、常用聊天句子词典、对话数据、训练数据等

我们自己学习自然语言处理过程中,需要到处寻找相关数据集,比较麻烦,使用我在学习过程中将跟视频学的以及自己整理收集的数据集进行上传GitHub便于后来者使用学习,当然是逐渐上传,毕竟现在我也还在学习ing(也希望得到大家学习过程中找到的数据集一起做个集中)

GitHub数据集地址:python0208/Chinese-dictionary-preparation: 从网上收集整理的中文词典(用于做自然语言处理的分词获其它) (github.com)c​​​​​​​cicon-default.png?t=N7T8https://github.com/python0208/Chinese-dictionary-preparation

 常用聊天数据

 已上传,txt文本,数据大小4000+数据。用于聊天分词使用

中文词语数据

已上传,txt文本,数据大小10000+数据

 对话训练数据

未上传

问答数据集(可能需要针对性收集)

 未上传

停用词数据集

阔以直接GitHub搜索,但停用词过多,有些我们学习模型搭建过程中不适用,可能后期也会对其进行整理

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

seeyou1228

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值