网页UTF8转换GBK后出现问号"?"的原因

最新推荐文章于 2024-05-25 17:41:43 发布

剑西楼

最新推荐文章于 2024-05-25 17:41:43 发布

阅读量1w

点赞数 1

文章标签： tomcat utf-8 gbk 问号

网页UTF8转换GBK后出现问号"?"的原因

网页编码转换是进行网页解析和处理的第一步。

互联网上越来越多的网页采用UTF-8编码，UTF-8用1到6个字节编码UNICODE字符，收录了超过10万个字符，BMP部分也有六万多个字符

而在进行编码转换时，我们往往需要转换为GBK编码进行后续处理，很多网页在转换后，会发现出现大量连续的问号:????????

这些恶心的问号是在编码转换阶段引入的，原因是：

GBK字符集只收录了两万多个字符，比UTF-8的字符数量少得多。

转化到GBK编码的时候，就会有编码落到GBK字符集以外，不能转化成GBK编码。这部分字符在转换之后的字符串中都变成了’?’

UTF-8：采用变长字节 (1 ASCII, 2 希腊字母和排版字符, 3 汉字等多字节东亚语言, 4 平面符号和特殊符号等)，

其中双字节字符中有一些没有在GBK字符集中，通常来说UTF-8无法识别的字符都是非常生僻的字符，几乎难以遇到，可不用考虑；但有一个字符非常特殊：C2A0

C2A0是UTF8里的排版用空格（区别于ASI =20的空格），这个特殊的字符（unicode序号为0xA0），不在GBK字符集中。却频繁用于xml/html等格式的文件中。大量UTF-编码的网页使用这个字符用作占位的空格。而且不同浏览器对它的处理方式不同：IE浏览器识别出该符号并以空格显示，firefox则替换为xml转义字符   当网页中用C2A0进行文字排版时，我们对网页进行编码转换为GBK时就会出现很多"？"问号

一个简便的方案为，在网页转码前，进行过滤：

if(code_type == "UTF8")

{

str = str.replace('C2A0', ' ');

}

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
网页UTF8转换GBK后出现问号"?"的原因

网页UTF8转换GBK后出现问号"?"的原因网页编码转换是进行网页解析和处理的第一步。互联网上越来越多的网页采用UTF-8编码，UTF-8用1到6个字节编码UNICODE字符，收录了超过10万个字符，BMP部分也有六万多个字符而在进行编码转换时，我们往往需要转换为GBK编码进行后续处理，很多网页在转换后，会发现出现大量连续的问号:????????这些恶心的问号是在编码转换阶
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。