字符编码与网页乱码

最新推荐文章于 2020-03-20 21:14:19 发布

tianhaoray

最新推荐文章于 2020-03-20 21:14:19 发布

阅读量888

点赞数

分类专栏：个人杂谈文章标签：编码乱码浏览器 Firefox UTF-8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tianhaoray/article/details/9191811

版权

个人杂谈专栏收录该内容

4 篇文章 0 订阅

订阅专栏

做网站的朋友一定对乱码问题不陌生（底层系统开发员也深有其感）。当打开一个漂亮的页面，伴随着英文字符的却是一大堆稀奇古怪的符号，或者是著名的“锟斤拷”，瞬间就让人觉得十分碍眼和不爽。写此文章，用以记录下解决乱码问题过程的一些经验把

1.起源

为什么会有编码？这个问题太本源而与此关系不大了。计算机数据表示都是基本的01011……，而如何把我们需要的信息与二进制表示相互转化，就是编码和解码的问题。国外程序员不用担心他们的网页乱码--为什么？因为英文简简单单的26个字母，甚至用最简单的ASCII码都可以完全表示，不涉及到不同的编码方式（还有一个原因就是计算机创始就是外国人……）。而中华民族源远流长，汉语的庞大丰富字符集也是英语比不了的

这就涉及到问题了：汉字需要一种规范标准的编码方式，在计算机上显示

于是GB2312诞生，兼容ASCII码的一种编码方式，一个汉字用两个ASCII码表示

这种兼容带来一定好处的同时，也带来了识别上的麻烦。

后来开发的Unicode，使用两个字符作为一个“字”，这样所有文字包括汉字，就真正可以用同等地位的编码表示了。但是这样的话不兼容最初的ASCII，同样存在问题

UCS Transformation Format UCS转换格式，即常说的UTF编码，完美解决了这个问题。类似huffman思想，用“区间规则”解决了兼容性问题，英文仍然用1个字节表示，汉字等则用2个或3个字符

这样，中文编码除了GB2312(大陆)，BIG5(台湾)，GBK(国外)，还有UTF-8这种不同的设计方式。当然UTF-8占用更多的资源，许多地方仍用的GB2312，现在仍然没有一个统一的要求。但是统一标准是未来大势所趋！

至于怎么自动识别这些编码，涉及到比较深的标记问题，与乱码问题关系不大，这里提到的是常见的规范化后乱码情况

2.根本原因

只计算机识别必定不够准确，于是程序员写HTML文档时候，就决定用规范的meta charset（或者PHP head）指定字符集，告诉浏览器页面该如何解码~这是最好的方式了

如果程序员没有指定呢？一般服务器也会在返回的HTTP头设定默认的字符编码类型，尽量保证不出错。

正因为这两种方式设置不一致，使得以另一种编码来解释源页面的编码，乱码问题就出现了：

有趣的是，不同的浏览器对这两种方式的优先级不一样，所以有的浏览器会出现乱码，另一种则不会

比如firefox，它采用的是HTTP头指定优先于meta设置，浏览器会不管页面的编码字符集。apache服务器默认是utf-8，对于GB2312的页面就显示乱码了

有些国内浏览器，比如搜狗，则是根据页面优先判断的，所以很少出现这样的乱码情况

（关于“锟斤拷”乱码，实际上是Unicode无法表示的文字“��”用GBK等译码所导致的，编码的不规范吧）

3.一些方案

养成良好的编码习惯，在页面meta和PHP header设置好编码方式，并将页面保存为该方式（喂喂，恶搞的乱码也不要这样吧）

对于中文网页，修改服务器的默认配置，比如apache 2.2中是没有 AddDefaultCharset 这一选项的，但是默认却是utf-8，添加上即可（已在Firefox中测试）

已经乱码网页，尝试转化编码方式就可以解决。firefox提供手动选择编码，也可以用notepad++等文本编辑工具转码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符编码与网页乱码

做网站的朋友一定对乱码问题不陌生（底层系统开发员也深有其感）。当打开一个漂亮的页面，伴随着英文字符的却是一大堆稀奇古怪的符号，或者是著名的“锟斤拷”，瞬间就让人觉得十分碍眼和不爽。写此文章，用以记录下解决乱码问题过程的一些经验把1.起源为什么会有编码？这个问题太本源而与此关系不大了。计算机数据表示都是基本的01011……，而如何把我们需要的信息与二进制表示相互转化，就是编码
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。