anthropic-tokenizer：Anthropic Claude 3 模型下的非官方分词器

乔如黎

于 2025-03-26 09:53:34 发布

阅读量360

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gitblog_00501/article/details/146521077

版权

anthropic-tokenizer：Anthropic Claude 3 模型下的非官方分词器

anthropic-tokenizer Approximation of the Claude 3 tokenizer by inspecting generation stream 项目地址: https://gitcode.com/gh_mirrors/an/anthropic-tokenizer

项目介绍

anthropic-tokenizer 是一个针对 Anthropic 公司最近发布的 Claude 3 模型的非官方分词器。由于Anthropic 并未公开 Claude 3 的分词器，本项目通过分析模型生成流的特性，实现了一种创新的分词方法。这种方法的实现虽然效率不高，但目前是唯一已知公开的 Claude 3 分词器，适用于各种需要分词功能且对token消耗不敏感的实验场景。

项目技术分析

anthropic-tokenizer 的核心思想是通过对 Claude 3 模型生成流的反向工程来实现分词。具体而言，项目通过让模型重复生成某些文本，并观察这些文本在网络中的流向来推断分词。由于 Claude 3 模型每次只服务一个token，这种方法虽然效率低，但提供了一个近似准确的分词解决方案。

项目使用 Python 编写，依赖于用户拥有 Anthropic 的账号和 API 密钥。通过命令行工具，用户可以轻松地对单个字符串或批量文本进行分词操作，并且可以指定不同的模型进行分词。

项目及应用场景

anthropic-tokenizer 的应用场景主要针对需要研究分词对模型性能影响的研究人员或开发者。以下是一些具体的应用场景：

文本预处理：在进行文本分析或自然语言处理任务之前，需要对文本进行分词处理，以确保模型能够正确理解和处理输入数据。
模型调试：在调试和优化自然语言处理模型时，了解模型的分词方式可以帮助开发者更好地理解模型的行为和性能。
教育研究：对于教育领域的研究人员来说，使用 anthropic-tokenizer 可以探索和教学自然语言处理的基础知识。

项目特点

非官方实现：作为非官方分词器，anthropic-tokenizer 提供了唯一已知的方法来分析 Claude 3 模型的分词行为。
创新方法：通过分析生成流，项目实现了一种独特的分词技术，尽管效率不高，但在某些场景下非常有用。
易于使用：项目提供了简单的命令行接口，使得用户可以轻松地进行文本分词操作。
社区共享：项目鼓励用户共享其词汇表文件，以便构建一个统一的、社区驱动的词汇表，促进共同进步。

使用方法

在使用 anthropic-tokenizer 前，用户需要先创建一个 Anthropic 账号并获取 API 密钥。以下是一些基本的使用命令：

单字符串分词：

python anthropic_tokenizer.py --text "这里是对文本的分词示例。"

批量分词：

python anthropic_tokenizer.py --file to_tokenize.jsonl

在使用过程中，项目会将用到的 tokens 记录在一个名为 anthropic_vocab.jsonl 的文件中，用户可以通过分享这个文件来贡献自己的词汇表。

注意事项

尽管 anthropic-tokenizer 提供了一种创新的分词方法，但它在处理 trailing spaces 和 breaklines 时存在局限性。此外，由于生成流可能会将 breaklines 和 tokens 合并为单个事件，用户在使用时应注意这些细节。

总的来说，anthropic-tokenizer 是一个值得关注的开源项目，它为研究人员和开发者提供了一个探索和实验 Claude 3 分词的途径。通过社区的合作和共享，这个项目有望在未来得到进一步的改进和完善。

anthropic-tokenizer Approximation of the Claude 3 tokenizer by inspecting generation stream 项目地址: https://gitcode.com/gh_mirrors/an/anthropic-tokenizer

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

乔如黎 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。