程序员永远的痛之字符编码的奥秘

原创 2013年12月02日 22:56:57
     
    字符编码相信是每个程序员的噩梦,只要是有中文的地方,总是会遇到各种编码的问题,并且这种问题还非常难缠,尤其在linux上,因为上面很多软件都是针对英语国家开发的,是不会考虑其他语种编码问题。在遇到编码的无数大坑之后,我决定仔细研究下编码问题,因为这就像一道坎一直横在你面前,每次到这里你都会跌到,每次爬起来之后,你都若无其事,这样的人被称作战士,真正的战士。可惜是个力量战士,做为新时代的智力战士,当然不能在那跌到然后又在这继续跌到。
     文件的存储方式:
     文件都有自己的存储格式,比如最常见的txt,cpp,h,c,xml ,png, rmvb各种格式,还有自定义格式。这些文件不论是什么格式,都是存储在计算机硬盘里的2进制格存储,对应不同文件格式,有不同的软件解析。这篇文章不谈文件是如何存储的,只谈文件是如何解析的。
     文本文件解析:
     文本文件对应于人类可以阅读的文本,如何从2进制转换为文本文件呢?起初由于计算机在美国发明,自然大家考虑的是英语如何表示,英语字母总共26个,加上特殊字符,128个字符,7位既一个byte即可表示出来。这个就是大家所熟知的ascill编码。对应关系很简单,一个字符对应一一个byte。
     但很快发现,其他非英语国家的文字远远超过ascill码,这时候大家当然想统一字符编码,不同国家出了自己不同的编码方式,中国的gb2312就是自己做出来的编码方式,这样下去每个国家都有自己的编码方式,来回转换太麻烦了。这时候出现了新的编码方式,unicode编码方式,想将编码统一,所以规定了每个字符对应的unicode码。
     1、很多文件都是ascii编码,如果用unicode 太浪费。
     2、没有标志位说明该几个字节来解析为一个符号。
     这时候拯救世界的utf出现了,utf是unicode的一种实现,只不过更聪明了。utf16是占用两字节,或者四字节,utf32是占用四字节。utf8是很聪明的一种表示方式。
     1、对于单字节符号,字节第一位为0,后面7位表示字节编码。
     2、对于n字节符号,第一字节的前n位都设为1,第n+1位为0,其余位为编码位置。
对于不同的编码,在文本的最前方有不同的标志,unicode 通常有两位来表示分别是ff fe, 或者feff, fffe表示big-endian 编码feff表示litte-endian编码。utf8是efbbbf来开头的。可以看出来utf-8是自解释的,所以不用带这个标志文件,大多数程序是可以识别的。但有些程序不能识别这个标志,比如php就会直接把这个标志当文本解析,不会忽略。相信很多遇到php输出文本解析乱码或者解析错误的同学都遇到这样的问题。
    如何解决问题:
    如果有vim那最好不过了,去掉命令:
    set encoding=utf-8
    set nobomb
    添加命令:
    set encoding=utf-8
    set bomb
   或者使用notepad++自带的功能

字符编码的奥秘utf-8, Unicode

Unicode(统一码,万国码)是基于通用字符集(Universal Character Set)的标准发展。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足语言、跨平台进行文本转换、处...
  • hherima
  • hherima
  • 2013年03月10日 05:52
  • 5671

程序员永远的痛,字符编码的奥秘

字 符编码相信是每个程序员的噩梦,只要是有中文的地方,总是会遇到各种编码的问题,并且这种问题还非常难缠,尤其在linux上,因为上面很多软件都是针对 英语国家开发的,是不会考虑其他语种编码问题。在遇到...
  • suxinpingtao51
  • suxinpingtao51
  • 2014年04月15日 11:00
  • 823

程序员永远的痛之字符编码

字 符编码相信是每个程序员的噩梦,只要是有中文的地方,总是会遇到各种编码的问题,并且这种问题还非常难缠,尤其在linux上,因为上面很多软件都是针对 英语国家开发的,是不会考虑其他语种编码问题。在遇到...
  • u012388497
  • u012388497
  • 2014年03月03日 13:45
  • 319

【字符编码】字符编码的奥秘

字 符编码相信是每个程序员的噩梦,只要是有中文的地方,总是会遇到各种编码的问题,并且这种问题还非常难缠,尤其在linux上,因为上面很多软件都是针对 英语国家开发的,是不会考虑其他语种编码问题。在遇到...
  • tengweitw
  • tengweitw
  • 2014年04月15日 17:14
  • 927

每个程序员的都应该了解的字符编码

作者:科言君 链接:https://www.zhihu.com/question/20152853/answer/95576659 来源:知乎 著作权归作者所有,转载请联系作者获得授权。 在开发过程...
  • zxh2075
  • zxh2075
  • 2016年11月08日 18:01
  • 825

字符编码的奥秘

计算机中的字是如何处理的? 如果你用放大镜看一下,可以看出屏幕上的字是由一个一个的像素点组成的,每一个字符用一组像素点拼接出来,这些像素点组成一幅图像,变成了我们的文字,计算机又是如何将我们的文...
  • liaoqianwen123
  • liaoqianwen123
  • 2013年12月24日 11:21
  • 901

《编码的奥秘》目录摘要及读书笔记

本文由Markdown语法编辑器编辑完成。渴望交流是大多数人的天性。在本书中,“编码”通常指一种在人和机器之间进行信息转换的系统。换句话说,编码即是交流。有时我们将编码看得很神秘,其实大多数编码并非都...
  • inter_peng
  • inter_peng
  • 2016年08月06日 01:17
  • 1160

《编码的奥秘》读后感

历经两周左右的时间,终于把《编码的奥秘》这本书看完了。不得不说,这真是一本好书,深入浅出的讲解了大量与计算机与编码有关的东西。十分推荐对计算机有兴趣的朋友看看这本书,无论有没有技术功底,是否专业人士,...
  • u012745215
  • u012745215
  • 2015年05月18日 00:29
  • 3059

关于《编程的奥秘》一书未说完的话

关于《编程的奥秘》一书未说完的话第一部分 写作缘由 2006年1月,在春节前的一星期,我从出版社终于拿到了样书,不久,在海淀图书城的科技书店中也看到了这本书,只不过被摆在一个很不显眼的角落,不知道有没...
  • bitfan
  • bitfan
  • 2006年01月25日 22:33
  • 10739

大学总结之影响我最深的十本书

今天是“世界读书日”,前几天微博上转发非常多的一条微博:“一日不读书,无人看得出;一周不读书,开始会爆粗;一月不读书,智商输给猪”,确实阅读是很重要的,对此我深有体会。大学四年我读了大量的书,其中大多...
  • hazir
  • hazir
  • 2012年04月23日 23:14
  • 3865
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:程序员永远的痛之字符编码的奥秘
举报原因:
原因补充:

(最多只允许输入30个字)