本文主要为如何使用pytorch来获取bert词向量。
首先安装pytorch-pretrained-bert包:
pip install pytorch-pretrained-bert
然后加载预训练模型
from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM
# Load pretrained model/tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
如果是第一次使用,执行上述代码后程序会开始自动下载相应的模型,但是会耗费大量时间,因此最好事先下载好相应的模型,然后指定目录。
tokenizer = BertTokenizer.from_pretrained('data/cased_L-12_H-768_A-12') #改为自己存放模型的目录
model = BertModel.from_pretrained('data/cased_L-12_H-768_A-12')
如何下载模型:
Bert模型下载地址如下,根据自己的需求下载相应模型。