7.3.4 分词器
文件tokenizer.py实现了一个简单的分词器 SimpleTokenizer,用于将文本编码成 BPE(Byte Pair Encoding)标记,并提供解码功能。该分词器可用于为输入文本生成 BPE 标记序列,以便在模型中进行处理,同时支持对生成的标记序列进行解码还原成原始文本。
@lru_cache()
def default_bpe():
return os.path.join(os.path.dirname(os.path.abspath(__file__)), "bpe_simple_vocab_16e6.txt.gz")
@lru_cache()
def bytes_to_unicode():
bs = list(range(ord("!"), ord("~")+1))+list(range(ord("¡"), ord("¬")+1))+list(ran