大模型一个 token 能代表几个单词和汉字？

最新推荐文章于 2024-10-17 22:12:53 发布

大模型玩家

最新推荐文章于 2024-10-17 22:12:53 发布

阅读量953

点赞数 8

文章标签：人工智能数据库产品经理 langchain java ai agi

本文链接：https://blog.csdn.net/2401_85375186/article/details/142250461

版权

问题

大模型一个 token 能代表几个单词和汉字？

答案

每个模型的 Tokenizer 都不太一样，所以这个问题不能给出很精确的答案，更多的是考察一些大模型的使用经验。

**文末有一些目前 Tokenizer 的看法，感兴趣的可以讨论。
**

也可以换着法子问，比如一段一万字的 prompt，输入到最大长度为 8192 的模型，是否能正确的输出？

但是每个模型的 Tokenization 都是在自己的语料上训练出来的，怎么知道具体某一个 Tokenizer 每个 token 平均代表几个汉字呢？

有的模型的技术报告会在 Tokenization 那一章提供一个“压缩率” 的指标，比如 qwen 和 baichuan 的，但是有些技术报告并不会提。

虽然说不同的 tokenizer 在不同的训练语料上训练的不一样，但是大家采用的方法其实无非就那么几种

其实只要训练语料里主要的语言一样，在大量数据的堆积下，最终的的结果差异并不大。下面会给出以英文为主的模型和中英文为主的模型的一些结果对比。

为了测试，我选择了两本小说，《孔乙己》和《哈利波特》第一章，分别测试不同 tokenizer 对这两篇小说的中文版和英文版的效果。

结果如下图所示：

虽然这只能算是个抽样，但是也能看出一些问题。

每个模型在英文上的效果基本差不太多。一个 token 大概占 0.75～0.8 个单词。这与 OpenAI 官网上写的差不多：“A helpful rule of thumb is that one token generally corresponds to ~4 characters of text for common English text. This translates to roughly ¾ of a word (so 100 tokens ~= 75 words).”

国内的模型在中文语料上特训之后，中文编码的效率显著高于英文的 ChatGPT 和 Llama。一个 token 大概占1.5 个汉字。

目前的 Tokenizer 的编码效率够么？

如何把语料用最少的 bit 位传输给模型，其实也是个通信的问题。只不过现在模型参数的通信远高于数据的通信，所以数据与 GPU 的通信目前还不需要优化。

如果哪一天模型需要大量的输入的时候，tokenizer 的编码效率可能还会被研究。

当前的 tokenization 是否是最优编码？目前只能说有最优编码的影子，但是还不完全是。

比如 BPE 的算法其实就是在构建 Huffman 树，但是构建了之后仍然采用了相同比特位数来编码。这么做的好处省去了解码的过程，直接查表就获取到了 Embedding，但是其实引入解码这点计算量也算不了啥。坏处就是通信上其实还有优化的空间。

还有一点就是中文的编码效率其实理论上还可以更高，因为目前所有的处理流程都是按照英文的流程来的。

比如 subword，对中文就完全没生效啊。之前也举过一个例子，oarfish 我虽然不知道是啥，但是猜测是条鱼。对于中文来说，“鲥”这个字我可能也不认识，但是我也猜测这是条鱼，但是这个字在中文肯定被表示成 bytes 了，就没啥意义了。

所以中文如何高效的编码，也应该是一个研究课题，我甚至感觉中文这种二维的文字，应该和图像的 tokenizer 有某种联系，比如在训练的时候，除了 id embedding，还有这个字对应的图片信息的 embedding。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。