写一个 ChatGPT token 编解码 Node.js 服务【含源码】

本文链接：https://blog.csdn.net/baofs/article/details/129273439

背景介绍

最近做了一个 ChatGPT 相关的项目 - Ai 玩伴，这是一个微信小程序。Ai 玩伴是基于OpenAI 的 GPT-3.5 语言模型，搭建富有性格特色的「Ai 玩伴」智能聊天机器人。它可以陪你聊天、陪你玩、为你解答各种问题，具体功能可以微信中搜索【Ai 玩伴】进行功能体验。如果想要了解 Ai 玩伴小程序相关的开发历程，我可以在下一篇博客中进行分享。

关于 token

token 是 ChatGPT 中的一个重要的概念。了解过 ChatGPT 的老玩家都知道，
ChatGPT 在 API 处理用户输入的内容之前，会先将内容转化成 token。我们可以简单的把 token 理解成字符，但是 token 的分割并不是严格意义上的一个单词，它的与实际字符数对应关系如下：

1 token ~= 4 英文字符
1 token ~= 3/4 个字
100 token ~= 75 个单词

更多 token 相关说明可以参考官方提供的这篇文章 **What are tokens and how to count them?。**同时，官方还提供一个 token 解析的在线工具（Tokenizer tool），帮助你更加直观的了解 token 的转化过程。具体页面如下：

在这里插入图片描述

由于 Ai 玩伴小程序采用了和官方一样的计费模式，所以我们需要对用户输入的内容进行分词处理，然后计算分词数量进行计费。在分词过程中我们需要保证和官方的分词算法保持一致，这就给我们的开发实践提出的不小的难题。经过一段时间的调研，我们发现 **gpt-3-encoder 这个 npm 包能够完美解决我们的问题。

gtp-3-encoder 是对 GPT-2/GPT-3 编解码的基础库，是用 javascript 实现的。原版是使用 Python 实现的。gpt-3-encoder 通过使用字符匹配编码的方式，将用户的输入内容转化为 OpenAI model 能够识别的一串数字。例如：【中国】两个字在经过 encode 之后会转化成 [40792,32368,121]。

下面我们就来看看在实际的项目中如何使用。

项目开发

环境准备

检查 node 环境

$ node -v
v16.18.1

$ npm -v
8.19.2

初始化项目

# 新建项目目录
$ mkdir chat-gpt-node && cd chat-gpt-node

# 初始化 package.json
$ npm init -y

安装依赖

$ npm i express gpt-3-encoder body-parser

依赖说明

express：极简、高效的 Node.js web 框架；
body-parser：Node.js body 转化中间件，能够将 body 中的内容转化为 js 对象；
gpt-3-encoder：GPT-2/GPT-3 编解码库。

核心代码

const express = require('express');
const bodyParser = require('body-parser');
const { encode, decode } = require('gpt-3-encoder');

const app = express();

// 使用 bodyParser 中间件
app.use(
	bodyParser.json({
		type: 'application/json',
	})
);

/**
 * 将字符串转化成 token
 */
app.post('/encode', (req, res) => {
	try {
		// 编码核心逻辑
		const token = encode(req.body.str);
		res.send({
			code: 0,
			message: 'success',
			data: token,
		});
	} catch (error) {
		console.error('encode-failed: ', error);
	}
});

/**
 * token 解码
 */
app.post('/decode', (req, res) => {
	try {
		// 解码核心逻辑
		const decoded = decode(req.body.data);
		res.send({
			code: 0,
			message: 'success',
			data: decoded,
		});
	} catch (error) {
		console.error('encode-failed: ', error);
	}
});

app.listen(1234, '0.0.0.0', function () {
	console.log('dataServer running at port 1234');
});

运行

启动 express 服务，在命令行执行命令：

$ node index.js

当看到命令行输出如下内容后，表示服务已经正常启动：

dataServer running at port 1234

验证

使用 curl 进行验证

在命令行执行命令：

$ curl -H "Content-Type: application/json" -X POST -d '{"str": "中国"}'  http://localhost:1234/encode

当看到命令行输出如下内容后，表示解码成功：

{"code":0,"message":"success","data":[40792,32368,121]}

使用 postman 进行验证

如果看到如下内容，则表示服务正常。
在这里插入图片描述

部署

使用 pm2 启动 Node.js 服务：

$ pm2 start index.js

同样可以使用上述验证方法进行验证。

可以通过在命令行执行下列命令，查看 Node 服务运行状态：

$ pm2 list

总结

通过本这篇文章的学习，我们了解到了 ChatGPT 中的一个核心概念 token。通过官方提供的工具，我们能直观的体会 token 的转化过程。

通过 gpt-3-encoder 的使用，我们可以在 Node 服务中能够对用户的输入进行编码，将用户的输入内容转化成和官方一样的 token 序列，帮助我们完成相关的需求功能。

关于 gpt-3-encoder 更多的内容就留给你进行探索了。如果有什么问题，欢迎在评论区进行友好交流。

Ai 玩伴项目用到的 gpt-encode-node 工程源码可以在附件中进行下载。