字符编码
文章平均质量分 94
LTIven
爱闻,爱问,爱文
展开
-
刨根究底字符编码之零——前言
前言 (图片来自网络) 一、字符编码是计算机世界里最基础、最重要的一个主题之一。不过,在计算机教材中却往往浮光掠影般地草草带过,甚至连一本专门进行深入介绍的著作都找不到(对这一点我一直很困惑,为什么就没有哪位大牛对这个如此基础、重要而又如此容易让人困惑的主题写一本专著予以介绍呢)。而在编程实践中,如果不发扬死磕到底的精神将字符编码问题的来龙去...转载 2019-08-12 10:35:25 · 119 阅读 · 0 评论 -
刨根究底字符编码之九——字符编码方案的演变与字节序
字符编码方案的演变与字节序 一、字符编码方案的演变1.前文已经提及,编号字符集CCS(简称字符集)与字符编码方式CEF(简称编码方式)这两个概念,在早期并没有必要严格区分。在Unicode编码方案出现之前,字符集及其具体的编码方式是绑定耦合在一起的,因此,“字符集”、“编码”或“编码方式”甚至“编码方案”这几个概念经常相互指代、彼此混用。比如,字符集...转载 2019-08-12 11:19:10 · 291 阅读 · 0 评论 -
刨根究底字符编码之八——Unicode编码方案概述
Unicode编码方案概述 1.前面讲过,随着计算机发展到世界各地,于是各个国家和地区各自为政,搞出了很多既兼容ASCII但又互相不兼容的各种编码方案。这样一来同一个二进制编码就有可能被解释成不同的字符,导致不同的字符集在交换数据时带来极大的不便。比如大陆和台湾是只相隔150海里、使用着同一种语言的兄弟地区,也分别采用了不同的DBCS双字节字符集编码方案。以前...转载 2019-08-12 11:18:24 · 350 阅读 · 0 评论 -
刨根究底字符编码之七——ANSI编码与代码页(Code Page)
ANSI编码与代码页(Code Page)一、ANSI编码1.如前所述,在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前,各个国家、民族为了用计算机记录并显示自己的字符,都在ASCII编码方案的基础上,设计了各自的编码方案。比如欧洲先后设计了EASCII和ISO/IEC 8859系列字符编码方案;为了显示中文及相关字符,中国设计了GB系列编码(“GB”...转载 2019-08-12 11:17:14 · 725 阅读 · 0 评论 -
刨根究底字符编码之六——简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系
简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系 GB2312、GBK、GB18030等GB类汉字编码方案的具体实现方式是怎样的?区位码是什么?国标码是什么?内码、外码、字形码又是什么意思?它们是如何转换的,又为什么要这样转换?下面以GB2312为例来加以说明(由于GBK、GB18030是以GB2312为基础扩展而来,因此...转载 2019-08-12 11:16:08 · 5872 阅读 · 0 评论 -
刨根究底字符编码之四——EASCII及ISO 8859字符编码方案
EASCII及ISO 8859字符编码方案 1.计算机出现之后,首先逐渐从美国发展到了欧洲。由于欧洲很多国家所用到的字符中,除了基本的、美国也用的那128个ASCII字符之外,还有很多衍生的拉丁字母等字符。比如,在法语中,字母上方有注音符号;而欧洲其他国家也有各自特有的字符。考虑到一个字节能够表示的编码实际上有256个(2^8 = 256)...转载 2019-08-12 11:14:03 · 231 阅读 · 0 评论 -
刨根究底字符编码之三——字符编码的由来
字符编码的由来 一、为什么需要对字符进行编码1.计算机一开始发明出来时是用来解决数字计算问题的,后来人们发现,计算机还可以做更多的事,例如文本处理。但计算机其实挺笨的,它只“认识”010110111000…这样由0和1两个数字组成的二进制数字,这是因为计算机的底层硬件实现就是用电路的开和闭两种状态来表示0和1两个数字的。因此,计算机只可以直接存储和处...转载 2019-08-12 11:13:06 · 160 阅读 · 0 评论 -
刨根究底字符编码之二——关键术语解释(下)
关键术语解释(下) 一、第1层 抽象字符表ACR (Abstract Character Repertoire抽象字符清单):明确字符的范围(即确定支持哪些字符)1.抽象字符表ACR是一个编码系统支持的所有抽象字符的集合,可以简单理解为无序的字符集合,用于确定字符的范围,即要支持哪些字符。抽象字符表ACR的一个重要特点是字符的无序性,即其中的字符并没有编排数字顺序...转载 2019-08-12 11:11:16 · 184 阅读 · 0 评论 -
刨根究底字符编码之一——关键术语解释(上)
声明:本系列文章参考了网上的大量资料,除了少部分资料由于未作大量修改(但基本上也有少量修改,因为网上文章随意性较大,很多明显的笔误或前后矛盾之处,如若不改反而让人迷糊)而标明了原作者和出处之外,其余由于基本上已按自己的理解作了大量改写,因此没有再一一予以说明,在此对原作者表示歉意并感谢。另外,文中图片部分来自网络,部分为本人制作,也不再一一说明。同时,文中若有错漏,还请直...转载 2019-08-12 10:38:35 · 223 阅读 · 0 评论 -
刨根究底字符编码之十——Unicode字符集的编码方式以及码点、码元
Unicode字符集的编码方式以及码点、码元 一、字符编码方式CEF的选择1.由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两个或两个以上字节。比如,汉字“严”的Unicode码(Unicode码点值、Unicode编号)是十六进制数4E25,转换成二进制数有15位(100 1110 00...转载 2019-08-12 11:19:57 · 1565 阅读 · 0 评论