tokens关于在输出字符时出现部分乱码

郝铠锋

已于 2024-02-04 16:42:47 修改

阅读量456

点赞数 3

文章标签：人工智能机器学习深度学习神经网络自然语言处理

于 2024-02-04 16:41:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39667443/article/details/136028683

版权

文章讨论了在使用大模型进行语言问答时遇到的字符显示问题，即某些字被转化为两个FFFD。原因在于大模型的tokenizer将中文字符分为了多个token。解决方案是遇到特殊字符时不直接输出，而是暂存并等待后续token一起解析。参考了一个GitHub上的MLX框架示例。

摘要由CSDN通过智能技术生成

在使用大模型做语言问答的时候，出现了有某些字无法正常显示而出现了两个� � 的情况。
在这里插入图片描述

解释如下：

tokens是大模型输出的基本单位，而不是字符的基本单位。大部分中文汉字都是三个token对应一个汉字，有部分生僻字是四个token对应一个汉字。在使用大模型的时候，输出的tokrnizer在解析时就会出现上述的问题。

解决方案：修正的代码中是遇到这个字符，就不吐出来，只把token加入待解析的队列，然后等下个token出来后一起解析。

参考：GitHub - someoneAlready/mlx-examples: Examples in the MLX frameworkhttps://www.fileformat.info/info/unicode/char/fffd/index.htm

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
tokens关于在输出字符时出现部分乱码

参考：GitHub - someoneAlready/mlx-examples: Examples in the MLX frameworkhttps://www.fileformat.info/info/unicode/char/fffd/index.htm。tokens是大模型输出的基本单位，而不是字符的基本单位。在使用大模型的时候，输出的tokrnizer在解析时就会出现上述的问题。解决方案：修正的代码中是遇到这个字符，就不吐出来，只把token加入待解析的队列，然后等下个token出来后一起解析。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

郝铠锋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。