楔子
由于大部分 NLP 的模型和数据集都在国外,导致国内下载速度实在感人😭。好在有很多 NLP 的框架内置了很多数据集,都是国内链接,亲测下载速度很快,本文汇总一下一些我见到的国内链接,文末感谢这些平台提供的存储和下载服务。
正文
模型
模型 | 文件名称 | 下载链接 |
---|
| bert-base-cased | 下载 |
| bert-base-chinese | 下载 |
| bert-base-uncased | 下载 |
| bert-chinese-wwm-ext | 下载 |
BERT | bert-chinese-wwm | 下载 |
| bert-large-cased-wwm | 下载 |
| bert-large-cased | 下载 |
| bert-large-uncased-wwm | 下载 |
| bert-large-uncased | 下载 |
数据集
数据集 | 文件名称 | 下载链接 |
---|
中文情感分析 | ChnSentiCorp | 下载 |
语义相似度 | LCQMC | 下载 |
问答匹配 | NLPCC_DPQA | 下载 |
中文命名实体识别 | MSRA_NER | 下载 |
英文多标签分类数据集 | Toxic | 下载 |
抽取式英文阅读理解 | SQUAD | 下载 |
抽取式中文阅读理解 | CMRC2018 | 下载 |
抽取式繁体阅读理解 | DRCD | 下载 |
英文数据集集合 | GLUE | 下载 |
跨语言自然语言推理 | XNLI | 下载 |
今日头条中文新闻短文本分类 | TNews | 下载 |
互联网情感分析 | INews | 下载 |
智能客服中文问句匹配 | BQ | 下载 |
中文长文本分类 | IFLYTEK | 下载 |
中文长文本分类 | THUCNEWS | 下载 |
词向量
词向量 | 文件名称 | 下载链接 |
---|
| glove.6B.50d | 下载 |
| glove.6B.100d | 下载 |
GloVe | glove.6B.200d | 下载 |
| glove.6B.300d | 下载 |
| glove.42B.300d | 下载 |
| glove.840B.300d | 下载 |
数据集下载代码
有些时候想在代码里面直接下载数据集,这里给一份参考的代码:
1
2
3
4
5
6
7
8
9
10
11
| # 下载文件包并解压,解压文件夹在当前文件夹的datasets目录下
# 注意:datasets目录不需要新建,重复执行代码会自动检查文件是否存在,不会重复下载
file = tf.keras.utils.get_file(
fname="cmrc2018.tar.gz",
origin="https://bj.bcebos.com/paddlehub-dataset/cmrc2018.tar.gz",
extract=True,
cache_dir='.',
)
# 文件路径
train_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_train.json')
eval_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_dev.json')
|
感谢
- fastnlp 提供的模型和词向量,more 😘
- paddlehub 提供的数据集,more😘
Tips
如果还有其他的国外文件需要下载,国内下载很慢,可以尝试使用 kaggle 的 notebook 先下载到 kaggle,然后再下载到本地,亲测有效😄。