本地手动加载albert-base-v2模型文件,
albert-large-v2、albert-xlarge-v2、albert-xxlarge-v2同理,
base的hidden_size维度为768,large往后依次为1024、2048、4096,参见论文
从该网站下载所需的模型文件:albert-base-v2 · Hugging Face
所需的文件有:config.json, pytorch_model.bin(下载后重命名), spiece.model
路径组织结构:
└─model
│ spiece.model
│
└─albert-base
config.json
pytorch_model.bin
from transformers import AlbertTokenizer
vocab_file = 'model/spiece.model'
tokenizer = AlbertTokenizer( vocab_file )
albert的数据处理部分与bert相同:
-
single sequence:
[CLS] X [SEP]
-
pair of sequences:
[CLS] A [SEP] B [SEP]
参见:ALBERT — transformers 2.11.0 documentation (huggingface.co)
我这里用的transformers版本是2.11.0
from transformers.modeling_albert import AlbertModel
bert = AlbertModel.from_pretrained( 'model/albert-base/' )