核心：ChatGPT 是如何处理文字输入的？

最新推荐文章于 2024-09-13 22:31:07 发布

人工智能_SYBH

最新推荐文章于 2024-09-13 22:31:07 发布

阅读量392

点赞数

分类专栏： 2024年机器学习&深度学习千例文章标签： chatgpt 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68036862/article/details/131198335

版权

2024年机器学习&深度学习千例专栏收录该内容

该专栏为热销专栏榜第34名

824 篇文章 844 订阅 ¥99.90 ¥299.90

订阅专栏

本文详细介绍了ChatGPT中文字输入处理的两个关键步骤：Tokenizer和Embedding。Tokenizer利用BPE算法将文本转换为token序列，克服了长尾效应和实现了多语言支持。Byte-level BPE算法解决了字符多样性问题。Embedding则将token转换为张量，方便接入神经网络并抽象了token的语义，使得模型能理解和处理自然语言。

摘要由CSDN通过智能技术生成

目录

Tokenizer 算法 BPE 执行流程

Byte-level BPE 算法

BPE 的词表是如何训练得到的？

Tokenizer 的好处

克服长尾效应 OOV

多语言支持

词嵌入（Embedding）

Embedding 的好处

Embedding 方便接入大规模神经网络

Embedding 抽象了 token 的语义

第 1 节里，我们介绍清楚了 ChatGPT 模型的输入和输出，实际上就是将文字输入 ChatGPT 模型当中，然后再让模型预测出文字，本质上就是一个“文字接龙”式的语言模型。

而文字在进入 ChatGPT 模型之前，需要先经过一个转换，形成另外一种数据形式。在 ChatGPT 计算处理完之后，也需要将结果再做逆转换，形成文字形式，反馈给用户。这种转换包括两个步骤，Tokenizer 和 Embedding。本节主要介绍这两个模块。

Tokenizer

ChatGPT 官方目前已经开始对服务收费了，收费方式主要是计算用户使用的 token 数，数量越多，收费越高。

例如，用户提问了一条文本，文字（带标点和各种特殊符号）共有 50 个字符，但耗费了 30 个 token，ChatGPT 根据输入生成一条回答，总计 200 个 token，逆转换为文字总共 300 个字&#

了解本专栏

人工智能_SYBH

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能_SYBH 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。