NLP 常用模型和数据集高速下载

楔子

由于大部分 NLP 的模型和数据集都在国外,导致国内下载速度实在感人😭。好在有很多 NLP 的框架内置了很多数据集,都是国内链接,亲测下载速度很快,本文汇总一下一些我见到的国内链接,文末感谢这些平台提供的存储和下载服务。

正文

模型

模型文件名称下载链接
bert-base-cased下载
bert-base-chinese下载
bert-base-uncased下载
bert-chinese-wwm-ext下载
BERTbert-chinese-wwm下载
bert-large-cased-wwm下载
bert-large-cased下载
bert-large-uncased-wwm下载
bert-large-uncased下载

数据集

数据集文件名称下载链接
中文情感分析ChnSentiCorp下载
语义相似度LCQMC下载
问答匹配NLPCC_DPQA下载
中文命名实体识别MSRA_NER下载
英文多标签分类数据集Toxic下载
抽取式英文阅读理解SQUAD下载
抽取式中文阅读理解CMRC2018下载
抽取式繁体阅读理解DRCD下载
英文数据集集合GLUE下载
跨语言自然语言推理XNLI下载
今日头条中文新闻短文本分类TNews下载
互联网情感分析INews下载
智能客服中文问句匹配BQ下载
中文长文本分类IFLYTEK下载
中文长文本分类THUCNEWS下载

词向量

词向量文件名称下载链接
glove.6B.50d下载
glove.6B.100d下载
GloVeglove.6B.200d下载
glove.6B.300d下载
glove.42B.300d下载
glove.840B.300d下载

数据集下载代码

有些时候想在代码里面直接下载数据集,这里给一份参考的代码:

1
2
3
4
5
6
7
8
9
10
11
# 下载文件包并解压,解压文件夹在当前文件夹的datasets目录下
# 注意:datasets目录不需要新建,重复执行代码会自动检查文件是否存在,不会重复下载
file = tf.keras.utils.get_file(
        fname="cmrc2018.tar.gz",
        origin="https://bj.bcebos.com/paddlehub-dataset/cmrc2018.tar.gz",
        extract=True,
        cache_dir='.',
    )
# 文件路径
train_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_train.json')
eval_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_dev.json')

感谢

  • fastnlp 提供的模型和词向量,more 😘
  • paddlehub 提供的数据集,more😘

Tips

如果还有其他的国外文件需要下载,国内下载很慢,可以尝试使用 kaggle 的 notebook 先下载到 kaggle,然后再下载到本地,亲测有效😄。

  • 6
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值