Tokenizer指向报错TypeError GPT2Tokenizer: __init__ () missing 2 required positional arguments: ‘vocab_fi

系统环境

硬件环境(Ascend/GPU/CPU): Ascend

MindSpore版本: 2.2

执行模式(PyNative/ Graph): 不限

报错信息

2.1 问题描述

执行WizardCoderTokenizer.from_pretrained(…)命令时,没有指向WizardCoderTokenizer,反而指向了GPT2Tokenizer,导致加载错误。

Traceback (most recent call last):

File "/home/wizardcoder/1_wizardcoder-mindformers/mindformers/tools/register/register.py", line 217, in get_instance     return obj_cls(**kwargs)

TypeError:_init_( ) missing 2 required positional arguments: 'vocab_file' and 'merges_file'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):File "<stdin>", line 1, in<module>  File "/home/wizardcoder/1_wizardcoder-mindformers/mindformers/models/base_tokenizer.py" , line 2004, in from_pretrained   return build_tokenizer(class_name=class_name , **kwargs)  File "/home/wizardcoder/1_wizardcoder-mindformers/mindformers/models/build_tokenizer.py", line 76, in build_tokenizer

return MindFormerRegister. get_instance(module_type , class_name, **kwargs)    File "/home/wizardcoder/1_wizardcoder-mindformers/mindformers/tools/register/register.py", line 219, in get_instance raise tvnelel('{}. {} ".format(obj_cls._name_, e))     TypeError: GPT2Tokenizer: init () missing 2 required positional arguments: 'vocab_file' and 'merges_file'复制

根因分析

注册或者配置文件中可能指向了GPT2Tokenizer,需要排查:

1) mindformer_book.py中查看tokenizer是否注册

2) run_wizardcoder.yaml文件中查看是否有指向错误

3) from_pretrained引用的预训练模型文件中查看是否有指向错误

解决方案

发现在tokenizer_config.json文件中引用了GPT2Tokenizer,需要将其改为WizardCoderTokenizer。

"tokenizer_class":"GPT2Tokenizer"复制

改为

"tokenizer_class":"WizardCoderTokenizer"
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值