解决BERT模型bert-base-chinese报错(无法自动联网下载)

一、下载问题

hugging-face是访问BERT模型的最初网站,但是目前hugging-face在中国多地不可达,在代码中涉及到该网站的模型都会报错,本文我们就以bert-base-chinese报错为例,提供一个下载到本地的方法来解决问题。

二、网站

google-bert (BERT community)This organization is maintained by the transformers team at Hugging Face and contains the historical (pre-"Hub") BERT checkpoints.icon-default.png?t=N7T8https://hf-mirror.com/google-bert这个网站可以搜索所需的模型文件并下载到本地

三、下载说明

1.下载模型文件:

无论你是下载什么模型(pytorch版)文件夹,应该包含以下三个文件:

  • config.json
  • vocab.txt
  • pytorch_model.bin

2.更改文件名!

很多下载的模型文件夹里面上述三个文件名字可能会有不同,一定要注意!以清华OpenCLaP上下载下来的民事BERT为例,其中包含了三个文件对应的名字为:

  • bert_config.json 看到没有!!这个前面多了个bert_,一定要改掉!bert_config.json
  • vocab.txt
  • pytorch_model.bin

三个文件一定要与第一步中的结构一样,名字也必须一样

3.将文件放入自己的文件夹

这里我们在自己的工程目录里新建一个文件夹:bert_localpath,将三个文件放入其中,最终结构如下:

bert_localpath

config.json
vocab.txt
pytorch_model.bin

4.加载

使用 .from_pretrained("xxxxx")方法加载,本地加载bert需要修改两个地方,一是tokenizer部分,二是model部分:
step1、导包: from transformers import BertModel,BertTokenizer
step2、载入词表: tokenizer = BertTokenizer.from_pretrained("./bert_localpath/") 这里要注意!!除了你自己建的文件夹名外,后面一定要加个/才能保证该方法找到你的vocab.txt
step3、载入模型: bert = BertModel.from_pretrained("./bert_localpath") 然后,这个地方又不需要加上/

5.使用

至此,你就能够使用你的本地bert了!!例如~outputs = bert(input_ids, token_type_ids, attention_mask)来获得token的编码输出output

over,最近在准备比赛的时候遇到的问题,综合各篇文章解决问题,在此记录一下,希望能帮到你,如果觉得我写的有问题的或者太简单的,可以去看看其他人的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

搬砖修狗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值