LlamaTokenizer.from_pretrained 报错 TypeError: not a string

SmallerFL

于 2024-07-29 17:27:49 发布

阅读量203

点赞数 8

分类专栏： Python相关其他问题 fix 文章标签： llama gpt nlp llm python

本文链接：https://blog.csdn.net/qq_36803941/article/details/140776310

版权

Python相关同时被 2 个专栏收录

32 篇文章 0 订阅

订阅专栏

其他问题 fix

10 篇文章 0 订阅

订阅专栏

文章目录

1. 报错
2. 解决办法
- 2.1 检查路径
- 2.2 切换 AutoTokenizer
3. 参考

1. 报错

调用 LlamaTokenizer.from_pretrained 时报错：

from transformers import LlamaTokenizer
tokenizer = LlamaTokenizer.from_pretrained(model_dir)

报错如下：

File ~\venvs\envllama\lib\site-packages\transformers\tokenization_utils_base.py:2089 in from_pretrained
return cls._from_pretrained(

File ~\venvs\envllama\lib\site-packages\transformers\tokenization_utils_base.py:2311 in _from_pretrained
tokenizer = cls(*init_inputs, **init_kwargs)

File ~\venvs\envllama\lib\site-packages\transformers\models\llama\tokenization_llama.py:169 in init
self.sp_model = self.get_spm_processor(kwargs.pop("from_slow", False))

File ~\venvs\envllama\lib\site-packages\transformers\models\llama\tokenization_llama.py:196 in get_spm_processor
tokenizer.Load(self.vocab_file)

File ~\venvs\envllama\lib\site-packages\sentencepiece_init_.py:961 in Load
return self.LoadFromFile(model_file)

File ~\venvs\envllama\lib\site-packages\sentencepiece_init_.py:316 in LoadFromFile
return _sentencepiece.SentencePieceProcessor_LoadFromFile(self, arg)

TypeError: not a string

2. 解决办法

2.1 检查路径

检查模型路径是否有问题

2.2 切换 AutoTokenizer

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(model_dir)

3. 参考

https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/discussions/37

SmallerFL

关注

8
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
LlamaTokenizer.from_pretrained 报错 TypeError: not a string

本文介绍如何解决，LlamaTokenizer.from_pretrained 报错 "TypeError: not a string"
复制链接

扫一扫