[nlp] tokenizer加速：fast_tokenizer=True

最新推荐文章于 2024-07-16 14:00:23 发布

心心喵

最新推荐文章于 2024-07-16 14:00:23 发布

阅读量2.4k

点赞数

分类专栏： nlp 文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/Trance95/article/details/131917849

版权

nlp 专栏收录该内容

115 篇文章 43 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

快速tokenizer通过使用字典、哈希表和预处理技术加速文本处理，减少计算量，提高模型训练和推理速度。

摘要由CSDN通过智能技术生成

fast_tokenizer 是一个布尔值参数，用于指定是否使用快速的 tokenizer。在某些情况下，使用快速的 tokenizer 可以加快模型训练和推理速度。如果 fast_tokenizer 参数为 True，则会使用快速的 tokenizer；否则，将使用默认的 tokenizer。

快速的 tokenizer 通常使用一些技巧来减少 tokenization 过程中的计算量，以便更快地处理文本数据。其中一种常见的技巧是使用字典或哈希表来存储单词，而不是使用字符串。这样可以避免在字符串中搜索和替换子字符串的操作，从而提高 tokenization 的速度。

另外，快速的 tokenizer 还可以使用一些预处理技术，例如将单词转换为其基本形式（即去掉后缀或前缀），或者将多个连续的空格或标点符号合并为一个空格或标点符号。

总之，快速的 tokenizer 通过使用一些优化技巧和预处理技术来减少计算量，从而提高 tokenization 的速度。

tokenizer = load_hf_tokenizer(args.model_name_or_path_baseline, fast_tokenizer=True)

def load_hf_tokenizer(model_name_or_path, fast_tokenizer=True):
    if os.path.exists(model_name_or_path):
        # Locally tokenizer loading has some issue, so we need to forc

了解本专栏

超级会员免费看

心心喵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
[nlp] tokenizer加速：fast_tokenizer=True

快速的 tokenizer 通常使用一些技巧来减少 tokenization 过程中的计算量，以便更快地处理文本数据。这样可以避免在字符串中搜索和替换子字符串的操作，从而提高 tokenization 的速度。另外，快速的 tokenizer 还可以使用一些预处理技术，例如将单词转换为其基本形式（即去掉后缀或前缀），或者将多个连续的空格或标点符号合并为一个空格或标点符号。总之，快速的 tokenizer 通过使用一些优化技巧和预处理技术来减少计算量，从而提高 tokenization 的速度。
复制链接

扫一扫