前言
总的来说,扩充词表可以加快解码速度,对于对中文支持不太友好的模型(如llama),扩充词表还能提升模型在中文的表现。
环境
jsonlines==3.1.0
sentencepiece==0.1.99
transformers==4.28.1
项目结构
其中 tokenization_baichuan.py
是直接从百川模型文件夹里复制过来的
一、使用步骤
pip install -r requirements.txt
cd src
python main.py
二、训练词表
训练的代码不多
def train_sp(train_file