字符编码

关于字符编码的几个注意

参考:


Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。
UCS只是规定如何编码,并没有规定如何传输、保存这个编码。
UCS可以看作是"Unicode Character Set"的缩写。
UTF是“UCS Transformation Format”的缩写, 是对UCS的编码方式。
UTF-8的一个特别的好处是它与ISO-8859-1完全兼容

从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。
而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。

Windows使用代码页(code page)来适应各个国家和地区。code page可以被理解为内码。GBK对应的code page是CP936。

UCS-2 UCS-4 两种unicode编码方式,不同的地方在于4byte和还是2byte编码,再深入的话是对BMP的定义上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值