我们自己学习自然语言处理过程中,需要到处寻找相关数据集,比较麻烦,使用我在学习过程中将跟视频学的以及自己整理收集的数据集进行上传GitHub便于后来者使用学习,当然是逐渐上传,毕竟现在我也还在学习ing(也希望得到大家学习过程中找到的数据集一起做个集中)
常用聊天数据
已上传,txt文本,数据大小4000+数据。用于聊天分词使用
中文词语数据
已上传,txt文本,数据大小10000+数据
对话训练数据
未上传
问答数据集(可能需要针对性收集)
未上传
停用词数据集
阔以直接GitHub搜索,但停用词过多,有些我们学习模型搭建过程中不适用,可能后期也会对其进行整理