一、中文语料库
- 文本分类
复旦语料库:https://pan.baidu.com/s/159fsjExjyfemkJWPBz1UvA
提取码:vuhcd
搜狗新闻数据:http://www.sogou.com/labs/resource/cs.php
今日头条新闻数据:https://github.com/skdjfla/toutiao-text-classfication-dataset - 文本生成
中文多领域的知识驱动对话数据集KdConv:https://github.com/thu-coai/KdConv,
相关论文链接:https://arxiv.org/pdf/2004.04100.pdf
更多如豆瓣、微博、贴吧、小黄鸡、青云等正在上传…急可私。 - 翻译
- 机器阅读
二、爬虫爬取
- scrapy爬取
未完,持续更新…