之前训练 Bert 模型的时候,代码还一切正常,直到更换成 Bertweet 模型的时候,只要开始训练,就会报上面这个错。找了很多方法,但都无济于事。
后来发现Bertweet要求的 max_tokenization_length是128,而Bert要求的 max_tokenization_length是512,维度没对上,导致报上面那个错,把这个维度的参数改过来就可以正常训练了。
之前不知道维度没对上,也会报CUDA的错误,这个解决方法不适用于所有出这个问题的情况,这里仅仅做一个记录。
之前训练 Bert 模型的时候,代码还一切正常,直到更换成 Bertweet 模型的时候,只要开始训练,就会报上面这个错。找了很多方法,但都无济于事。
后来发现Bertweet要求的 max_tokenization_length是128,而Bert要求的 max_tokenization_length是512,维度没对上,导致报上面那个错,把这个维度的参数改过来就可以正常训练了。
之前不知道维度没对上,也会报CUDA的错误,这个解决方法不适用于所有出这个问题的情况,这里仅仅做一个记录。