字符集编码ANSI和UNICODE

原创 2007年10月09日 12:16:00
编码指不同国家的语言在计算机中的一种存储和解释规范
ANSI与ASCII
最初,Internet上只有一种字符集——ANSI的ASCII字符集(American Standard Code for Information Interchange, “美国信息交换标准码),它使用7 bits来表示一个字符,总共表示128个字符,后来IBM公司在此基础上进行了扩展,用8bit来表示一个字符,总共可以表示256个字符,充分利用了一个字节所能表达的最大信息
ANSI字符集:ASCII字符集,以及由此派生并兼容的字符集,如:GB2312,正式的名称为MBCS(Multi-Byte Chactacter System,多字节字符系统),通常也称为ANSI字符集。
UNICODE与UTF8,UTF16


由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,产生了Unicode字符集,它固定使用16 bits(两个字节)来表示一个字符,共可以表示65536个字符
标准的Unicode称为UTF-16(UTF:UCS Transformation Format )。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编码。 (Unicode字符集有多种编码形式)
例如“连通”两个字的Unicode标准编码UTF-16 (big endian)为:DE 8F 1A 90
而其UTF-8编码为:E8 BF 9E E9 80 9A


当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件一般采用三种方式来决定文本的字符集和编码:
检测文件头标识,提示用户选择,根据一定的规则猜测
最标准的途径是检测文本最开头的几个字节,开头字节 Charset/encoding,如下表:
EF BB BF    UTF-8
FE FF     UTF-16/UCS-2, little endian
FF FE     UTF-16/UCS-2, big endian
FF FE 00 00   UTF-32/UCS-4, little endian.
00 00 FE FF   UTF-32/UCS-4, big-endian. 

字符编码:ANSI和ASCII区别、Unicode和UTF-8区别

ANSI和ASCII区别 ANSI码(American National Standards Institute) 美国国家标准学会的标准码 ASCII码(America Standard Cod...
  • dongchongyang
  • dongchongyang
  • 2016年09月09日 10:32
  • 1740

从字符编码的发展历史理解ANSI、GB2312、Unicode、UTF8和UTF16区别

在编程学习的深入后,不可避免的会遇到ANSI、GB2312、UTF8的编码问题,如果不彻底了解他们的区别,都最终会造成一个问题--乱码!例如文件打开乱码,数据库乱码、网页乱码等等各种乱码,这里就通过字...
  • zrf2112
  • zrf2112
  • 2016年02月22日 19:19
  • 1495

字符编码: UTF8 和 ANSI 的区别分析

字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识。 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两...
  • wabil
  • wabil
  • 2016年03月05日 09:22
  • 5901

字符集编码cp936、ANSI、UNICODE、UTF-8、GB2312、GBK、GB18030、DBCS、UCS

字符集编码Unicode GB2312 UTF cp936   这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇...
  • wanghuiqi2008
  • wanghuiqi2008
  • 2012年10月16日 22:02
  • 3402

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode

来自:http://blog.csdn.net/zhoubl668/article/details/6914018 ASCII  ASCII码是7位编码,编码范围是0x00-0x7...
  • jo_say
  • jo_say
  • 2011年12月20日 14:07
  • 659

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、unicode、UTF-8

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、unicode、UTF-8      ANSI字符串我们最熟悉,英文占一个字节,汉字2个字节,以一个\0结尾,常用于txt文本文...
  • halazi100
  • halazi100
  • 2014年01月14日 23:39
  • 872

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode

ASCII  ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持AS...
  • wh62592855
  • wh62592855
  • 2011年11月09日 11:02
  • 1574

中文字符集编码Unicode ,gb2312 , cp936 ,GBK,GB18030

转自:http://hi.baidu.com/okptqdwpfrbosuq/item/0fc063f8b65f0516d6ff8c03
  • xuhao_xuhao
  • xuhao_xuhao
  • 2014年09月25日 21:03
  • 255

转载 中文字符集编码Unicode ,gb2312 , cp936 ,GBK,GB18030

转自: http://www.blog.edu.cn/user3/flyingcs/archives/2006/1418577.shtml 概要:UTF-8的一个特别的好处是它与ISO- 8859...
  • fengshh2301
  • fengshh2301
  • 2016年09月28日 01:46
  • 201

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode

ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持AS...
  • zhoubl668
  • zhoubl668
  • 2011年10月28日 13:06
  • 8443
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:字符集编码ANSI和UNICODE
举报原因:
原因补充:

(最多只允许输入30个字)