构建自己模型的Tokenizer

今天阅读别人写的开源代码,学到了如何编写自己的Tokenizer,自己添加special_token,自己定义special_token的token_id。(仅适用于T5类型,使用SentencePiece模型训练出来的分词方法,对于Bert这种WordPiece的分词,不适用)

首先,我们有这样一个任务,需要有一个在基本此表的基础上,添加特殊令牌"<loc_*>"其中*从0-100。然后token_id就往后排,比如原来的此表有100个,最大的id是99,现在加了100个特殊令牌之后,此表变成了200个,"<loc_0>"的id是100,...,"<loc_99>"的id是199这样。

要自定义Tokenizer肯定是要有个父类的,如果用PretrainedTokenizer的话,里面的方法比如,vocab_size,get_vocab, _tokenize,_convert_token_to_id,_convert_id_to_token等几个关键的方法是需要根据自己的要求自定义的,其他的Tokenizer其实也是这么重写然后实现的,比如T5Tokenizer,可以去借鉴他们的写法然后改成自己的。

因为我们的任务比较简单,我们可以继承T5Tokenizer,只重写里面的部分方法。

首先,导入必要的库:

from transformers import T5Tokenizer
import sentencepiece as spm

下载所需要的预训练好的分词模型,可以去huggingface上下载,比如去https://huggingface.co/google-t5/t5-small/tree/main,里面有个叫spiece.model的文件就是分词预训练文件。不同的模型分词方法是不一样的,比如去https://huggingface.co/google-bert/bert-base-uncased/tree/main里面就找不到,原因是bert的分词是基于规则去做的,没有预训练文件,因此不适合我们这里将的Tokenizer构建方法。

下载好了之后,就可以开始编写我们的分词器类MyTokenizer了:

class MyTokenizer(T5Tokenizer):
    def __init__(self,
                 vocab_file,
                 eos_token="</s>",
                 unk_token="<unk>",
                 pad_token="<pad>",
                 loc_extra_ids=100,
                 sp_model_kwargs=None,
                 additional_special_tokens=[],
                 **kwargs):
        self.vocab_file = vocab_file
        self._loc_extra_ids = loc_extra_ids
        
        self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
        self.sp_model.Load(self.vocab_file)
        
        additional_special_tokens.extend(["<loc_{}>".format(i) for i in range(0, self._loc_extra_ids)])
        self.additional_special_tokens = additional_special_tokens
        
        super(MyTokenizer, self).__init__(
            vocab_file=self.vocab_file,
            eos_token=eos_token,
            unk_token=unk_token,
            pad_token=pad_token,
            additional_special_tokens=self.additional_special_tokens
            **kwargs
        )

初始化函数里面,主要是把sentencepiece模型定义好,要添加的special token添加好,然后初始化父类,继承里面的方法和属性。

下面重写一些我们要自定义的类,其中主要是_convert_token_to_id,_convert_id_to_token,我这里顺便把vocab_size,get_vocab也重写了,不过这两个方法和T5Tokenizer里写的是一样的,主要给大家看看长啥样。

    @property
    def vocab_size(self):
        return self.sp_model.get_piece_size() + self._loc_extra_ids
    
    def get_vocab(self):
        vocab = {self.convert_ids_to_tokens(i) : i for i in range(self.vocab_size)}
        vocab.update(self.added_tokens_encoder)
        return vocab
    
    def _convert_id_to_token(self, index):
        if index < self.sp_model.get_piece_size():
            token = self.sp_model.IdToPiece(index)
        elif index < self.vocab_size:
            loc_id = index - self.vocab_size + self._loc_extra_ids
            token = f"<loc_{loc_id}>"
        else:
            raise
        return token
    
    def _convert_token_to_id(self, token):
        if token.startswith("<loc_"):
            id_index = int(token[5:-1])
            return (self.vocab_size - self._loc_extra_ids) + id_index
        else:
            return self.sp_model.PieceToId(token)

里面self.sp_model.get_piece_size获取现有的词表的长度,self.sp_model.IdToPiece负责将现有的词的id变成token,self.sp_model.PieceToId负责将现有的token变成id。

然后实例化一个我们自己的tokenizer:

mytokenizer = MyTokenizer(path/to/speice.model)

验证一下好使不:

mytokenizer.decode(mytokenizer.encode("<loc_10>", add_special_tokens=False))

输出“<loc_10>”说明好使!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值