automodel.from_pretrained 使用本地缓存模型（huggingface.co 链接报错时可用）

原创

已于 2023-05-09 18:33:57 修改 · 2w 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#缓存 #人工智能

于 2023-05-09 18:32:52 首次发布

huggingface.co 链接报错

在这里插入图片描述

Automodel.from_pretrained()和AAutoTokenizer.from_pretrained()同理

第一次缓存模型到指定文件夹

from transformers import AutoTokenizer, AutoModel

sen_trans_pretrained_path = os.path.join(PWD, "pretrained_w", "sentence-transformers")
model_name = 'sentence-transformers/all-MiniLM-L6-v2'

tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    cache_dir=os.path.join(sen_trans_pretrained_path, "tokenizer"))

model = AutoModel.from_pretrained(
    model_name,
    cache_dir=os.path.join(sen_trans_pretrained_path, "model"))

cache_dir 指定要保存的本地目录，方便后面使用

报错后使用本地缓存model和tokenizer

from transformers import AutoTokenizer, AutoModel
sen_trans_pretrained_path = os.path.join(PWD, "pretrained_w", "sentence-transformers")
tail = 'models--sentence-transformers--all-MiniLM-L6-v2/snapshots/7dbbc90392e2f80f3d3c277d6e90027e55de9125'
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path = os.path.join(sen_trans_pretrained_path, "tokenizer",tail))
   

model = AutoModel.from_pretrained(
    pretrained_model_name_or_path = os.path.join(sen_trans_pretrained_path, "model", tail))

pretrained_model_name_or_path 为之前缓存的模型和tokenizer的最里层目录
最里层目录指的是：

对于tokenizer 要到词表和config这一层：
对于model 要到bin这一层:

另一个例子

缓存

from sentence_transformers import SentenceTransformer
sen2vec = SentenceTransformer('paraphrase-MiniLM-L6-v2',cache_folder=os.getcwd()+"/flaskr/pretrained_ST")

在这里插入图片描述

本地调用

from sentence_transformers import SentenceTransformer
sen2vec = SentenceTransformer(os.getcwd()+"/flaskr/pretrained_ST/sentence-transformers_paraphrase-MiniLM-L6-v2")

参考

AutoTokenizer
AutoModel
SSLError: HTTPSConnectionPool(host=‘huggingface.co’, port=443)
class AutoTokenizer: 源码

 @classmethod
 def from_pretrained(cls, pretrained_model_name_or_path, *inputs, **kwargs):
     r""" Instantiate one of the tokenizer cl

最低0.47元/天解锁文章