一、JTokkit 简介
JTokkit是一个专为 Java 开发者设计的高效文本分词库,主要适用于与 OpenAI 模型进行集成。它提供了一种简单易用的接口,使开发者能够轻松地对输入文本进行编码和解码,尤其是在准备向 GPT-3.5 等模型发送请求时。这个库的设计初衷是为了在 JVM 生态系统中实现类似 Python 中 tiktoken 库的功能。
二、安装 JTokkit
通过向 Maven 项目添加以下依赖项来安装 JTokkit:
<dependency>
<groupId>com.knuddels</groupId>
<artifactId>jtokkit</artifactId>
<version>1.1.0</version>
</dependency>
三、使用JTokkit
EncodingRegistry registry = Encodings.newDefaultEncodingRegistry();
Encoding enc = registry.getEncoding(EncodingType.CL100K_BASE);
IntArrayList encoded = enc.encode("This is a sample sentence.");
// encoded = [2028, 374, 264, 6205, 11914, 13]
String decoded = enc.decode(encoded);
// decoded = "This is a sample sentence."
// Or get the tokenizer based on the model type
Encoding secondEnc = registry.getEncodingForModel(ModelType.TEXT_EMBEDDING_ADA_002);
// enc == secondEnc