字符编码
文章平均质量分 77
friendbkf
Bingo! macrofun is me too.
展开
-
【字符编码系列之一】多字节数据的字节序
字符和字节的区别字节(byte):是一个8bit的存储单元,取值范围是0x00~0xFF。字符(character):为语言意义上的一个符号,范围不一定。一个字符占用的字节数,随着编码方式的不同而不同。可能是一个字节,也可能是多个。对于大于一个字节的字符,我们称之为多字节数据。大端对齐(Big Endian):低地址存放 多字节数据 的高字节。小端对齐(Little Endian):低地址存放 多字节数据 的低字节。大端对齐 (Big Endian) 和小端对齐 (Little Endian原创 2015-05-03 16:46:52 · 1350 阅读 · 0 评论 -
【字符编码系列之四】Unicode实现之UTF-8详解
字符 代码点空间 | UTF-8 字节序列 (十六进制表示) | (二进制表示) --------------------+--------------------------------------------- 0000 0000-0000 007F | 0xxxxxxx 0000 0080-0000 07FF | 110xxxxx 10xxxxxx 0000 0800-0000 FFFF | 1110xxxx 10xxx原创 2015-05-05 16:27:52 · 1613 阅读 · 1 评论 -
【字符编码系列之二】国内中文编码标准简介
常见的字符集有:ASCII字符集、GB2312字符集、Big5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码及相应的解码,以便计算机能够识别和存储各种文字。简单介绍一下,只为下一篇文章引出Unicode字符编码。ASCII字符集ASCII(American Standard Code for Information Inte原创 2015-05-03 17:55:20 · 1592 阅读 · 0 评论 -
【字符编码系列之三】Unicode简介(不涉及具体实现)
Unicode定义了一个统一表示全世界所有文本的多语言文本编码方式。为了述说方便,就不区分Unicode组织和国际标准 ISO 10646 了,起初它们是在不知道对方的情况下,分别独立制定一套可以统一世界所有文字的编码方案。不久它们就发现了对方的存在,并认为世界不需要两个不一样的统一通用的字符集。所以他们联合起来维护一个字符集,我们就统称它们是Unicode吧,虽然这两个机构现在依然都存在,但是它原创 2015-05-04 16:32:05 · 952 阅读 · 0 评论 -
【字符编码系列之五】Unicode实现之UTF-16详解
起初Unicode是被设计成用固定的16位来表示代码点的。那时也被称作UCS-2时代。很自然,这些代码点上的值就直接不经过任何变换,直接作为UTF-16的编码了。后来,人们发现两个字节不足以表达世界上所有的书写系统,所以Unicode又被扩充为了4个字节。这时,如果还想继续使用UTF-16表达除了BMP平面之外的字符,就要进行一些改进了。之就引入了代理对的概念。引入代理对,是为了表示BMP平面之外的字符,也就是0x10000~0x10FFFF上的字符。对于表示BMP平面上的字符,UTF-16还是使用2个字节原创 2015-05-05 19:38:36 · 2013 阅读 · 0 评论