记录生僻字编码问题

曼曼的青萝

于 2023-08-31 17:23:52 发布

阅读量1.2k

点赞数

文章标签：编码

本文链接：https://blog.csdn.net/jiulixiang_88/article/details/132555352

版权

博客围绕生僻字编码问题展开。系统接收UTF8格式文件转码为GB18030后，生僻字显示异常。通过查看十六进制内容，分析了生僻字在UTF8和GB18030中的编码情况，指出GB18030中生僻字属用户自定义区，还解答了码值不一致疑问，提及使用PUA码值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

生僻字消失?

前段时间遇到一个问题，对方系统确认推送的文件里客户姓名为3个字：倪明，中间字如下：
PS: 忽略上面的编码哈，只看汉字
在这里插入图片描述
且文件为UTF8格式，本系统接收后转码为GB18030后，在服务器上cat 命令查看此行数据，姓名如下图：中间看起来有个空格

倪   明|10|

hexdump

问题1：对方系统的UTF8文件是否有这个生僻字
查看十六进制内容：
在这里插入图片描述
倪明的UTF8编码：

对比可以看出：中间生僻字的编码为：\xee90a1
将UTF8编码转换为unicode 编码–U+e421，转换规则参考：

而unicode 这个区是属于私有区：
补充知识：主要私有区由U+E000到U+F8FF范围内的代码点组成，总共6400个私有字符。
编码结构。按照惯例，主要私有区被划分为平台编写器的公司级使用分区，从U+F8FF开始向下扩展，以及从U+E000开始向上扩展的最终用户分区。

问题2：转码后GB18030是否有这个生僻字
查看十六进制内容：
在这里插入图片描述
倪明的GB18030编码：

对比可知生僻字的GB18030 编码为\xfdb8
属于用户自定义区2 属于字库中不存在的字，所以终端没有显示

具体的GB18030 可以下载完整文件：
国家标准全文公开系统–GB18030编码表文件