文章目录
大模型训练的常见中文数据集
数据集 | 链接 |
---|---|
中文文本分类数据集THUCNews | http://thuctc.thunlp.org |
清华大学NLP实验室开放数据集 | http://thuocl.thunlp.org/ |
wiki百科中文 | https://zh.wikipedia.org |
Chinese book | https://link.zhihu.com/?target=https%3A//github.com/JiangYanting/Chinese_book_dataset |
千言 | https://www.luge.ai |
参考视频链接