（7-3-02）CLIP 模型的增强训练与评估：分词器+损失函数+训练模型

码农三叔

于 2024-10-07 16:02:42 发布

阅读量131

点赞数 4

分类专栏：大模型从入门到实战(数据集、训练、RAG、多模态) 文章标签：人工智能大模型多模态模型验证模型训练 CLIP 模型

本文链接：https://blog.csdn.net/asd343442/article/details/142741851

版权

大模型从入门到实战(数据集、训练、RAG、多模态) 专栏收录该内容

192 篇文章 5 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

7.3.4 分词器

文件tokenizer.py实现了一个简单的分词器 SimpleTokenizer，用于将文本编码成 BPE（Byte Pair Encoding）标记，并提供解码功能。该分词器可用于为输入文本生成 BPE 标记序列，以便在模型中进行处理，同时支持对生成的标记序列进行解码还原成原始文本。

@lru_cache()
def default_bpe():
    return os.path.join(os.path.dirname(os.path.abspath(__file__)), "bpe_simple_vocab_16e6.txt.gz")

@lru_cache()
def bytes_to_unicode():
    bs = list(range(ord("!"), ord("~")+1))+list(range(ord("¡"), ord("¬")+1))+list(ran

了解本专栏