核心:ChatGPT 是如何处理文字输入的?

本文详细介绍了ChatGPT中文字输入处理的两个关键步骤:Tokenizer和Embedding。Tokenizer利用BPE算法将文本转换为token序列,克服了长尾效应和实现了多语言支持。Byte-level BPE算法解决了字符多样性问题。Embedding则将token转换为张量,方便接入神经网络并抽象了token的语义,使得模型能理解和处理自然语言。
摘要由CSDN通过智能技术生成

目录

Tokenizer

Tokenizer 算法 BPE 执行流程

Byte-level BPE 算法

BPE 的词表是如何训练得到的?

Tokenizer 的好处

克服长尾效应 OOV

多语言支持

词嵌入(Embedding)

Embedding 的好处

Embedding 方便接入大规模神经网络

Embedding 抽象了 token 的语义

总结


第 1 节里,我们介绍清楚了 ChatGPT 模型的输入和输出,实际上就是将文字输入 ChatGPT 模型当中,然后再让模型预测出文字,本质上就是一个“文字接龙”式的语言模型

而文字在进入 ChatGPT 模型之前,需要先经过一个转换,形成另外一种数据形式。在 ChatGPT 计算处理完之后,也需要将结果再做逆转换,形成文字形式,反馈给用户。这种转换包括两个步骤,Tokenizer 和 Embedding。本节主要介绍这两个模块。

Tokenizer

ChatGPT 官方目前已经开始对服务收费了,收费方式主要是计算用户使用的 token 数,数量越多,收费越高。

例如,用户提问了一条文本,文字(带标点和各种特殊符号)共有 50 个字符,但耗费了 30 个 token,ChatGPT 根据输入生成一条回答,总计 200 个 token,逆转换为文字总共 300 个字&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能_SYBH

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值