ASCII、Unicode、GBK和UTF-8字符编码

点击打开链接

上面链接写的很容易懂。下面是我昨天的实习log:

昨天读数据档读出来的描述是byte格式的,MAX_LEN = 256;

XML配置文档是这样的:

    <macro name="RES_MAX_DESC_LEN"            value="256"        desc="描述长度"/>
    <entry name="Description"              type="string"   cname="物品描述"    size="RES_MAX_DESC_LEN" />
然后用转换工具转换出来的是这样:

这样byte[256]的数据读出来是不能直接用的,需要先转化为string类型,
string strDesc = System.Text.Encoding.UTF8.GetString(rProps.szDescription);
关于ASCII Unicode UTF8之间的联系,可以查看这篇博客:
我个人的理解是:
ASCII码是用8bit表示,但是只能表示控制字符+英文字母+一些特殊的字符(点线圈叉等),为了能支持更多的字符描述,比如中文、韩文、日文,需要扩展字符,因此出现了Unicode字符。我一直以为Unicode是2byte,知乎上有个解释很好:
Unicode 是不是只有两个字节,为什么能表示超过 65536 个字符?
Unicode 目前规划的总空间是17个平面(平面0至16),0x0000 至 0x10FFFF。每个平面有 65536 个码点。
你只是大致知道平面0(「Basic Multilingual Plane」,即「BMP」)的 65536 个码点(即 0x0000 至 0xFFFF)如何编码,这不是 Unicode 的全部。
  • BMP 的字符是 Unicode 中最基础和最常用的一部分,以 UTF-16 编码时使用2字节,以 UTF-8 编码时使用1至3字节。
  • 超出 BMP 的字符以 UTF-16 或 UTF-8 编码都需要4字节。
  • 另外还有一个比较少用的编码形式,UTF-32,它编码任何 Unicode 字符都需要4个字节。
Unicode 的基础是一个编号的字符集,在字符集之上又规定了模块化的编码等等技术层次,各种具体的编码形式并不一致,你说的「Unicode 只有两个字节」这句话根本不成立。

如果没有UTF8,那么unicode也是有bug的。解释如下:
unicode同样也不完美,这里就有两个的问题,一个是,如何才能区别unicode和ascii?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储空间来说是极大的浪费,文本文件的大小会因此大出二三倍,这是难以接受的。

UTF-8就是每次8个位传输数据,而UTF-16就是每次16个位。UTF32是每次32位。UTF-8就是在互联网上使用最广的一种unicode的实现方式,这是为传输而设计的编码,并使编码无国界,这样就可以显示全世界上所有文化的字符了。
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度,当字符在ASCII码的范围时,就用一个字节表示,保留了ASCII字符一个字节的编码做为它的一部分,注意的是unicode一个中文字符占2个字节,而UTF-8一个中文字符占3个字节)。从unicode到uft-8并不是直接的对应,而是要过一些算法和规则来转换。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值