YouTokenToMe：高效无监督文本分词工具

苗伊姬Desmond

于 2024-08-12 08:33:12 发布

阅读量329

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00863/article/details/141117999

版权

YouTokenToMe：高效无监督文本分词工具

YouTokenToMeUnsupervised text tokenizer focused on computational efficiency项目地址:https://gitcode.com/gh_mirrors/yo/YouTokenToMe

项目介绍

YouTokenToMe 是一款专注于计算效率的无监督文本分词器，目前实现了快速字节对编码（BPE）算法。该项目的实现比 Hugging Face、fastBPE 和 SentencePiece 等工具在训练和分词方面更为迅速，某些测试案例中甚至快达60倍。详细性能测试结果可参见基准测试。

项目技术分析

YouTokenToMe 的核心优势包括：

多线程支持：在训练和分词过程中利用多线程技术。
算法复杂度：算法具有 O(N) 复杂度，其中 N 是训练数据的长度。
高效实现：采用 C++ 实现，确保高性能。
Python 封装与命令行接口：提供便捷的 Python 接口和命令行工具。

此外，YouTokenToMe 还支持 BPE-dropout，这是一种在训练过程中随机丢弃合并操作的技术，有助于提高模型的鲁棒性。

项目及技术应用场景

YouTokenToMe 适用于以下场景：

自然语言处理：在文本预处理阶段，用于分词和编码。
机器翻译：作为翻译模型的输入预处理工具，提高翻译效率。
文本生成：在生成模型中，用于处理和编码输入文本。

项目特点

高性能：在训练和分词过程中表现出色，尤其在处理大规模数据时。
易用性：提供 Python 接口和命令行工具，方便集成和使用。
灵活性：支持多种输出类型（ID 或子词），并可自定义特殊标记（如 PAD、UNK、BOS、EOS）。
扩展性：支持 BPE-dropout，增强模型的泛化能力。

安装与使用

安装

pip install youtokentome

示例

以下是一个简单的使用示例：

import random
import youtokentome as yttm

train_data_path = "train_data.txt"
model_path = "example.model"

# 生成随机训练数据文件
n_lines = 10000
n_characters = 100
with open(train_data_path, "w") as fout:
    for _ in range(n_lines):
        print("".join([random.choice("abcd ") for _ in range(n_characters)]), file=fout)

# 生成随机测试文本
test_text = "".join([random.choice("abcde ") for _ in range(100)])

# 训练模型
yttm.BPE.train(data=train_data_path, vocab_size=5000, model=model_path)

# 加载模型
bpe = yttm.BPE(model=model_path)

# 两种类型的分词
print(bpe.encode([test_text], output_type=yttm.OutputType.ID))
print(bpe.encode([test_text], output_type=yttm.OutputType.SUBWORD))

命令行接口

YouTokenToMe 还提供了命令行接口，方便快速操作：

$ yttm bpe --data TRAINING_DATA_FILE --model OUTPUT_MODEL_FILE --vocab_size 2000
$ yttm encode --model OUTPUT_MODEL_FILE --output_type subword < TEST_DATA_FILE > ENCODED_DATA