整理：“烫烫烫”与“锟斤拷”的原理

最新推荐文章于 2024-04-04 16:53:03 发布

bat67

最新推荐文章于 2024-04-04 16:53:03 发布

阅读量6.9w

点赞数 32

分类专栏： ● C/C++ 文章标签： utf-8 unicode character 调试编码

本文链接：https://blog.csdn.net/bat67/article/details/76730413

版权

● C/C++ 专栏收录该内容

65 篇文章 25 订阅

订阅专栏

手持两把锟斤拷，口中疾呼烫烫烫。脚踏千朵屯屯屯，笑看万物锘锘锘

解释一下为什么会是这两个东西不是别的= =：

锟斤拷乱码：

源于GBK字符集和Unicode字符集之间的转换问题。Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官方用了一个占位符来表示这些文字，这就是：U+FFFD REPLACEMENT CHARACTER。那么U+FFFD的UTF-8编码出来，恰好是 '\xef\xbf\xbd'。如果这个'\xef\xbf\xbd'，重复多次，例如 '\xef\xbf\xbd\xef\xbf\xbd'，然后放到GBK/CP936/GB2312/GB18030的环境中显示的话，一个汉字2个字节，最终的结果就是：锟斤拷——锟(0xEFBF)，斤（0xBDEF），拷（0xBFBD）。

烫烫烫乱码：

在windows平台下，ms的编译器（也就是vc带的那个）在 Debug 模式下，会把未初始化的栈内存全部填成 0xcc，用字符串来看就是"烫烫烫烫烫烫烫"，未初始化的堆内存全部填成0xcd，字符串看就是“屯屯屯屯屯屯屯屯”。也就是说出现了烫烫烫，赶紧检查初始化吧。。。

锟斤拷

Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官方用了一个占位符来表示这些文字，这就是：U+FFFD REPLACEMENT CHARACTER。
那么U+FFFD的UTF-8编码出来，恰好是 '\xef\xbf\xbd'。如果这个'\xef\xbf\xbd'，重复多次，例如 '\xef\xbf\xbd\xef\xbf\xbd'，然后放到GBK/CP936/GB2312/GB18030的环境中显示的话，一个汉字2个字节，最终的结果就是：锟斤拷——锟(0xEFBF)，斤（0xBDEF），拷（0xBFBD）[1] 。

http://baike.baidu.com/link?url=GCoDM7HBIV_JcJfXzIU9p1Rx7r8Ns2w6jVoZwnhn9ZizxhNG7egrUWojSETDzxb74uZFeVGIBK_qZYgNTo7So_

锘锘锘原理

BOM 是 Byte Order Mark 的缩写。是UTF编码方案里用于标识编码的标准标记，在UTF-16里本来是FF FE，变成UTF-8就成了EF BB BF。这个标记是可选的，因为UTF8字节没有顺序，所以它可以被用来检测一个字节流是否是UTF-8编码的。

锘EFBB
匡BFEF
豢BBBF

出现这个问题肯定是你写网页的时候用了记事本，记事本在保存文件的时候把原本文件的编码改了记事本会默认保存为UTF-8的编码，而如果你原本网页是GBK编码的，就会出现乱码~BOM就是把一个Unicode保留字符U+FEFF，按照文件存储者的编码方式编码后，塞到文件内容的最前边。这样用不同的Unicode编码去解析文件头，就可以得知文件的编码方式和大小端顺序。结果就是文件头部多出来了两三个字节。

有了BOM所有的程序都必须为BOM作出修改，这无疑是一个“大折腾”的行为。所以一般不认为BOM是个好主意。BOM引发的问题，我能想起来两个：

PHP无法指定header（因为有BOM相当于开启输出）
UNIX可执行脚本的Shabang标记（#!）不能识读

任何时候都采用无BOM的UTF-8编码的Unicode，绝对是一个引发麻烦最少的最实用策略。UTF-8是Unicode的最佳实践，没有之一。
必须指出的是，何弃疗的微软经常做出非要DOM不可的行为，最典型的例子就是那个记事本（存盘就加DOM）。所以任何时候，都千万别偷懒用记事本编辑php。华语骄傲Notepad++是Windows下的不二之选。

烫烫烫屯屯屯

在Visual Studio中的Debug模式下，如果声明一个变量，但是没有初始化，微软会给未初始化的内存复制为0xCC。给为初始化的内存赋0xCC是有原因的，0xCC其实是INT3中断指令，所以如果在Debug模式下试图去执行这块未初始化的内存的话就会中断程序。

但VS中调试器默认的字符集是MBCS，而在MBCS中0xCCCC正好就是中文中的“烫”，所以显示出来就都是烫……

如果是用分配堆的内存，会初始化成0xCD，0xCDCD在MBCS字符集中就是屯……

锟斤拷则涉及unicode的字符集转换问题，Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官方用了一个占位符来表示这些文字，这就是：U+FFFD REPLACEMENT CHARACTER。U+FFFD的UTF-8编码是0xEFBFBD，如果重复多次形成：EFBFBDEFBFBDEFBFBD 这样

在GBK/CP936/GB2312/GB18030的环境（都是中国标准惹的祸）中显示的话，一个汉字2个字节，最终的结果就是：锟斤拷——锟(0xEFBF)，斤（0xBDEF），拷（0xBFBD）……

bat67

关注

32
点赞
踩
66

收藏

觉得还不错? 一键收藏
2
评论
整理：“烫烫烫”与“锟斤拷”的原理

手持两把锟斤拷，口中疾呼烫烫烫。脚踏千朵屯屯屯，笑看万物锘锘锘解释一下为什么会是这两个东西不是别的= =：锟斤拷乱码：源于GBK字符集和Unicode字符集之间的转换问题。Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官方用了一个占位符来表示这些文字，这就是：U+FFFD REPLACEMENT CHARACTER。那么U+FFFD的...
复制链接

扫一扫