目录
第 1 节里,我们介绍清楚了 ChatGPT 模型的输入和输出,实际上就是将文字输入 ChatGPT 模型当中,然后再让模型预测出文字,本质上就是一个“文字接龙”式的语言模型。
而文字在进入 ChatGPT 模型之前,需要先经过一个转换,形成另外一种数据形式。在 ChatGPT 计算处理完之后,也需要将结果再做逆转换,形成文字形式,反馈给用户。这种转换包括两个步骤,Tokenizer 和 Embedding。本节主要介绍这两个模块。
Tokenizer
ChatGPT 官方目前已经开始对服务收费了,收费方式主要是计算用户使用的 token 数,数量越多,收费越高。
例如,用户提问了一条文本,文字(带标点和各种特殊符号)共有 50 个字符,但耗费了 30 个 token,ChatGPT 根据输入生成一条回答,总计 200 个 token,逆转换为文字总共 300 个字&#