【计算机基础知识】字符的编码表示

在这里插入图片描述

欢迎来到我的:世界

希望作者的文章对你有所帮助,有不足的地方还请指正,大家一起学习交流 !


前言

计算机处理的数据中,除了数值型数据以外,还有字符、图形等的非数值型数据。其中字符是日常生活中使用最频繁的非数值数据,它包括大小写英文、符号以及汉字等。由于计算机只能识别二进制编码,为了能够对字符进行识别和处理,因此要对其进行二进制编码表示;


1.西文字符编码

对西文字符编码最常用的是ASCII(美国信息交换标准代码)字符编码,该编码标准已经被国际标准化组织(ISO)指定为国际标准,是国际上使用最广泛的一种字符编码。ASCII码有两个版本:标准ASCII码和扩展ASCII码。

标准ASCII码是一个用7位二进制数来编码,用8位二进制数来表示的编码方式,其最高位为0,右边7位二进制位总共可以编出2^7=128个码。每个码表示一个字符,一共可以表示128个符号。
扩展ASCII码后128个编码称为扩展ASCII码。许多基于x86的系统都支持使用扩展(或“高”)ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。
标准ASCII是7位编码,存储时占8位,最高位是0,共可以表示128(2的7次方)个字符。
扩展ASCII是8位编码,刚好1个字节,最高位可以是0也可以是1,共可以表示256(2的8次方)个字符。

在这里插入图片描述

标准ASCII码:
在这里插入图片描述
表里的128个字符中,0~31及127(共33个)是控制字符或通信专用字符,为不可显示字符;其余字符为普通的字符(可显示字符);
常见ASCII码的大小规则:数字< 大写字母 < 小写字母。

2.中文字符编码

与英文字符一样,中文在计算机系统中也要使用特定的二进制符号来表示。通过键盘输入汉字时实际上是输入汉字的编码信息,这种编码称为汉字的输入码。计算机为了存储、处理汉字,必须将汉字的外部码换成汉字的内部码。为了将汉字以点阵的形式输出,还要将汉字的内部码转换为汉字的字形码。此外,在计算机与其他系统或设备进行信息、数据交流时还要用到国际码(交换码)。汉字编码的转换过程如图:
在这里插入图片描述

汉字输入码

汉字输入码是一种用计算机标准键盘上按键的不同排列组合来对汉字的输人进行的编码,也称为汉字的外部码(外码)。目前汉字输人编码法的研究和发展迅速,已有上百种汉字输人编码法。一个好的编码法应满足以下要求:编码短,可以减少击键的次数:码少,可以实现盲打;好学好记,便于学习和掌握,但现在还没有一种符合上述全部要求的汉字输入编码方法。
目前常用的汉宇编码主要分为以下三类:

音码: 主要是以汉语拼音为基础的编码方案,如全拼、双拼、简拼和智能 ABC 等。目前比较流行的拼音输人法有搜狗拼音、百度拼音等。音码的重码率高,单字输人速度慢,但容易掌握。
形码: 形码主要是根据汉字的特点,按汉字固有的形状,把汉字先拆分成部首,然后进行组合,代表有五笔字型法郑码输入法等。形码重码较少,单字输入速度快,但学习和掌握较困难。
数字编码: 常用的是区位码,用数字串输入一个汉字。区位码是将国家标准局公布的6763个两级汉字分为94个区,每个区分为94位,实际上是吧汉字集排列成二维数组的形式,行为区,列为位,每个汉字在数组中的下标就是区位码。区码和位码各用两位十进制数字表示,因此输入一个汉字需要按键4次。例如,“中”字位于第54区48位,区位码为5448。数字编码的优点是无重码,与内部编码的转换比较方便,缺点就是代码很难记;

为了提高输入速度,输入方法现已经走向了智能化,比如:语音识别输入、手写输入或扫描输入。但不管是哪种输入法,都是操作者向计算机输入汉字的手段;

汉字国标码

国标码是我国1980年发布的《信息交换用汉字编码字符集——基本集》(代号为GB2312-80),是中文信息处理的国家标准,也称为汉字交换码,简称GB。国标码对汉字进行编码的时候占用两个字节。考虑与ASCII编码的关系,国标码使用了每个字节的低7位。据统计,GB2312编码共收录汉字6763个和682个图形符号,把最常见的6763个汉字分为两级:一级汉字有3755个,二级汉字有3008个,按照偏旁部首排序。
区位码与国标码之间的关系:
区位码转换为国标码要将一个汉字的十进制区号和十进制位号分别转换为十六进制,然后再分别加上20H,就成为次汉字的国标码。
公式:汉字国标码=汉字区位码+2020H=汉字区位码+A0A0H

小知识:

不止只有GB2312编码,还有很多别的编码,比如:GBK、GB18030、BIG5、Unicode等等,咱们挑两个说一说:
GBK编码:全称《汉字内码扩展规范》1995年制订,也是和GB2312编码一样两个字节表示一个汉字,总共收录了21886个符号,包括了21003个汉字和883个其他符号;
BIG5编码:是专用于港澳地区使用的繁体字编码方案,也是两个字节表示一个汉字,总计有13053个繁体字(包括5401个常用字、7652个次常用字)、7个扩充字、以及808个各式字符,总共13868个字符;

汉字机内码

汉字在计算机内部使用的编码就是内码,也称为机内码。所以真正的计算机内部用来存储和处理和存储汉字信息的代码;每个汉字的内码占用两个字节,并且每个字节的最高位为1,这是为了避免汉字的内码与英文字符编码(ASCII码)发生冲突,容易区分汉字编码和英文字符编码,同时为了用尽可能的存储空间来表示尽可能多的汉字而做出的决定;
机内码与国标码的关系:
国标码的高字节、低字节分别+80H,就可以得到机内码;
汉字机内码=汉字国标码+8080H

汉字字形码

汉字字形码又叫做汉字字模或汉字输入码,用于汉字在显示屏或打印机输出。汉字字形码通常有两种表示方式:点阵式矢量式

点阵式表示字形时,分为 16X16 点阵、24X24 点阵、32X32 点阵、48X48 点阵等,点阵越大,描述的字形越细致美观,质量越高,所占存储空间也越大。在计算机中,8 个二进制位组成一个字节,它是度量空间的基本单位,因此,一个16X16点阵的字形码需要 16X16/8-32字节的存储空间,由此可得:

点阵字形码所占字节数=点阵行数X点阵列数/8

矢量式是描述汉字字形的轮廓特征,当要输出汉字时,字形和大小与计算机的分辨率无关,可以产生高质量的汉字输出,并节省存储空间。用矢量式记录的字体可以任意放缩甚至变形,而不用担心会出现锯齿状边缘。

所有汉字的输出码构成了汉字字形库,简称字库。

点阵字体与矢量字体的区别:
在这里插入图片描述


总结


到了最后:感谢支持

我还想告诉你的是:
------------对过程全力以赴,对结果淡然处之
也是对我自己讲的

  • 50
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 50
    评论
全国计算机应⽤基础知识:汉字、字符编码   (1)计算机中的信息单位   计算机中对信息表⽰的单位有位、字、字长及字节等,它们是⽤来表⽰信息量的⼤⼩的基本概念。    位:计算机中数据存储的最⼩单位是⼀个⼆进制位,简称位,英⽂为bit,⾳译为⽐特,可⽤⼩写字母b表⽰。    字节:⼋位⼆进制位称为⼀个字节,英⽂为Byte,可⽤⼤写字母B表⽰,是计算机存储的基本单位。⼀个字节的⼋位⼆进制数,其位编号⾃ 左⾄右为b7、b6、b5、b4、b3、b2、b1、b0。在计算机中,往往⽤字节数来表⽰存储容量,容量可以以KB、MB、GB、TB为单位,它们相互之 间的转换关系如下:   1KB=210B=1024B   1MB=210KB=1024KB   1GB=210MB=1024MB   1TB=210GB=1024GB    字:计算机在存储、传送或操作,作为⼀个整体单位进⾏操作的⼀组⼆进制,称为⼀个计算机字,简称字。    字长:每个字所包含的位数称为字长。由于字长是计算机⼀次可处理的⼆进制数的位数,因此它与计算机处理数据的速率有关,是衡量计 算机性能的⼀个重要因素。   (2)字符的编码。    ASCII码。   计算机只能识别⼆进制数,因此计算机中的数字、字母、符号也必须⽤⼆进制进⾏编码。编码⽅法有多种,微型机中普遍采⽤的是ASCII码 (美国标准信息交换码),ASCII码现已被国际标准化组织(ISO)接收为国际标准,称为ISO-646。ASCII码有7位版本和8位版本两种,国际上通 ⽤的ASCII码是7位版本。7位版本的ASCII码包含10个阿拉伯数字、52个英⽂⼤⼩写字母、32个标点符号和运算符及34个控制码,共128个字符, 所以可⽤7位⼆进制数表⽰。7位ASCII码字符如下图所⽰:   要确定⼀个数字、字母、符号或控制字符ASCII码,可在表中先找出它的位置,然后确定它所对应的⼗进制值或⼆进制值。例如⼩写字 母"a"的ASCII码其⼗进制值是97,⼆进制值是1100001B(B表⽰⼆进制数),若转换成⼗六进制,其值是61H(H表⽰⼗六进制数)。从表中可以 看出,数字0~9的ASCII码是30H~39H(后缀H表⽰是⼗六进制数),⼤写字母A~Z的ASCII码是41H~5AH,⼩写字母a~z的ASCII码是61H~ 7AH。字符⼤⼩的⽐较就是看它的ASCII码值的⼤⼩。   表中,NUL、BEL、LF、FF、CR、DEL等是控制字符,NUL表⽰空,BEL是告警符,BS是退格符,LF是换⾏符,FF是换页符,CR是回车 符,SP是空格符,DEL是删除符。    BCD码。   ⽤计算机处理数字,要进⾏⼆进制与⼗进制的相互转换,这就要⽤⼆进制对⼗进制数进⾏编码,BCD(Binary Coded Decimal)码是⼆进 制编码的⼗进制数。最常⽤的BCD码就是8421BCD码,   它是⽤4位⼆进制数为⼀组表⽰⼀个⼗进制数字,4位⼆进制数从左到右其位权依次为8、4、2、1,它可以组合成16种状态,对0~9这10个数 字的编码只取0000~1001这前10种状态,其余6种状态不⽤。为了能对⼀个多位⼗进制数进⾏编码,需要有和⼗进制数的位数⼀样多的4位⼆进制 组,按顺序分别进⾏编码。表1-4表⽰8421BCD码与⼗进制数的对应关系。   表1-4 BCD码与⼗进制数的对应关系    Unicode编码   ASCII码提供了128个字符,扩展的ASC码提供了256个字符,但⽤来表⽰世界各国的⽂字编码还显得不够,还需要表⽰更多的字符和意义,因 此⼜出现了Unicode编码。   Unicode是⼀种16位的编码,能够表⽰65000多个字符或符号。⽬前世界上的各种语⾔⼀般所使⽤的字母或符号在34000个左右,所以 Unicode编码可以⽤于任何⼀种语⾔。Unicode编码与现在流⾏的ASCII码完全兼容,⼆者的前256个符号是⼀样的。   (3)汉字的编码   汉字是⼀种象形⽂字,字数极多(现代汉字中仅常⽤字就有六七千个,总字数⾼达5万个以上),且字形复杂,每⼀个汉字都有"⾳、形、 义"三要素,同⾳字、异体字也很多,这些都给汉字的计算机处理带来了很⼤的困难。要在计算机中处理汉字,必须解决以下⼏个问题:⾸先,是 汉字的输⼊,即如何把结构复杂的.⽅块汉字输⼊到计算机中去,这是汉字处理的关键;其次,汉字在计算机内如何表⽰和存储,如何与西⽂兼 容;最后,如何将汉字的处理结果从计算机内输出。为此,必须将汉字代码化,   即对汉字进⾏编码。对应于上述汉字处理过程中的输⼊、内部处理及输出这3个主要环节,每⼀个汉字的编码都包括输⼊码、交换码、内部码 和字形码。在计算机的汉字信息处理系统中,处理汉字要进⾏如下的代码转换:输⼊码 交换码 内部码 字形码。
计算机基础知识(多选) 题号:1 题型:多选题 难度:2 内容:下列说法中,正确的是()。 试题选项: A、一个汉字用1个字节表示 B、在微机中,使用最普遍的字符编码是ASCII码 C、高级语言程序可以编译为目标程序 D、ASCII码的最高位用作奇偶校验位 标准答案: bcd 题号:2 题型:多选题 难度:1 内容:件型(外壳型)计算机病毒主要感染扩展名为() 试题选项: A、COM B、BAT C、EXE D、DOC 标准答案: ac 题号:3 题型:多选题 难度:1 内容: 计算机系统是由()组成 试题选项: A、中央处理器 B、硬件系统 C、打印机 D、软件系统 标准答案: bd 题号:4 题型:多选题 难度:1 内容:下列说法中,正确的是() 试题选项: A、一个汉字用1个字节表示 B、ASCII码用7位二进制表示128个字符 C、汉字国际码的代号为"GB2312--80" D、ASCII码的最高位用作奇偶校验位 标准答案: bcd 题号:5 题型:多选题 难度:1 内容:()不是计算机高级语言 试题选项: A、BASIC B、MASM C、C D、DOS 标准答案: bd 题号:6 题型:多选题 难度:2 内容:关于几个名词的概念,下列叙述正确的是()。 试题选项: A、指令通常由操作数和操作码组成 B、通常使用"字节"表示计算机存储器的长度 C、计算机"字"的长度等于两个字节 D、完成某一任务的指令集合称为语言 标准答案: ab 题号:7 题型:多选题 难度:2 内容: 下列设备中,____可作为存储介质。 试题选项: A、MP3随身听 B、数码相机 C、优(U)盘 D、DVD盘片 标准答案: acd 题号:8 题型:多选题 难度:1 内容: 当运行软盘上的程序发现该软盘已被病毒感染,此可采取的措施有() 试题选项: A、用杀毒软件杀毒 B、此磁盘重新格式化,再装入未染病毒的文件继续使用 C、此磁盘不可再使用,应报废 D、可继续运行磁盘上的其他程序 标准答案: ab ~ 题号:9 题型:多选题 难度:2 内容: 下列叙述中正确的是()。 试题选项: A、计算机要长期使用,不要长期闲置不用 B、为了延长计算机的寿命,应避免频繁开关机 C、在计算机附近应避免磁场干扰 D、计算机使用几小后,应关机一会儿再用 标准答案: abc ~ 题号:10 题型:多选题 难度:2 内容: 下列能用作存储容量单位的是____。 试题选项: A、Byte B、MIPS C、KB D、GB 标准答案: acd ~ 题号:11 题型:多选题 难度:1 内容: 计算机之所以能够应用于各个领域,主要是因为其具有()较突出的特点 试题选项: A、高速处理能力 B、自动运行能力 C、超强记忆能力 D、计算机精确高和可靠的逻辑判断能力 标准答案: abcd ~ 题号:12 题型:多选题 难度:2 内容: 冯·诺依曼计算机结构规定计算机的硬件系统由运算器、存储器、____部分组成。 试题选项: A、键盘 B、显示器 C、控制器 D、输入/输山设备 标准答案: cd ~ 题号:13 题型:多选题 难度:2 内容: 计算机存储容量的基本单位是"字节",一般用大写字母B表示常用的单位还有KB,MB和 GB,他们之间的换算关系正确的是____。 试题选项: A、1KB=1024B B、1MB=1024x1024B C、1MB=1OOOx1OOOB D、1GB=1OOOx1OOOKB 标准答案: ab ~ 题号:14 题型:多选题 难度:1 内容: 输入设备是微型计算机必不可少的组成部分,常见的输入设备有() 试题选项: A、激光打印机 B、键盘 C、鼠标 D、显示器 标准答案: bc ~ 题号:15 题型:多选题 难度:2 内容: 组成多媒体计算机一般具备的硬件有____。 试题选项: A、声卡 B、CD-ROM C、音箱 D、扫描仪 标准答案: abc ~ 题号:16 题型:多选题 难度:2 内容: 微机总线有____。 试题选项: A、地址总线 B、数据总线 C、通信总线 D、控制总线 标准答案: abd ~ 题号:17 题型:多选题 难度:1 内容: 用AD??.TXT通配名可代表() 试题选项: A、ADSE.TXT B、ADBC.TXT C、ADTE.TXT D、ABC.TXT 标准答案: abc ~ 题号:18 题型:多选题 难度:1 内容:常用的杀毒软件有() 试题选项: A、CPAV B、PCTOOLS C、KILL D、KV300 标准答案: cd ~ 题号:19 题型:多选题 难度:2 内容: 微型计算机的硬件组成包括____。 试题选项: A、CPU B、存储器 C、输入设备 D、输出设备 标准答案: abcd ~ 题号:20 题型
1. 计算机发展史中计算机诞生间的三个第一 世界上发明的第一台电子计算机 ENIA C 美国 世界上第一台按存储程序控制功能设计的计算机 EDVA C 1946 1950 美国 世界上第一台投入运行的实现存储顺序控制功能的计算机 EDSA C 1947 英国 2. 计算机发展的四个阶段和计算机代的开始 计算机发展的分代按照不同的规范有不同的分法。 通常是按计算机中硬件所采用的电子逻辑器件划分成电子管、晶体管、中小规模集 成电路、大规模超大规模集成电路四个阶段; 也有一种观点把计算机的发展大致分为四个期,即大型机期、小型机期、 PC 期(或客户 / 服务器、 PC/ 服务器)期和 Internet 或以网络为中心)期。 通常 所说的计算机代 " 从何开始? 认为 1951 年,世界上第一台商品化批量生产的计算机 UNIVA C-I 投产,计算机从此从实验室走向社会,由单纯为军事服务进入为社会公众服务,被认为 是计算机代的真正开始。 3. 计算机的特点 从计算机的特点理解计算机的定义,要清楚计算机的实质是一种信息处理机 计算机一种能够输入信息,存储信息,并按照人们意志(这些意志就是顺序)对 信息进行加工处理,最后输出人们所需要信息的自动执行的电子装置。 计算机的特点:处置速度快、处置精度高、可存储、可进行逻辑判断、可靠性高、 通用性强。 4. 计算机的主要性能指标 主频、字长、存储容量、存取周期、运行速度。 运算速度是个综合性的指标, MIPS 含义。 影响运算速度的因素,主要是主频和存取周期,字长和存储容量也有影响。 正确理解 字长 概念。 5. 计算机的主要应用领域 科学计算 信息处置 过程控制 辅助系统 通信 6. 计算机中为什么要采用二进制及二进制的基本运算规则 计算机中采用二进制是由计算机所使用的逻辑器件所决定。这种逻辑器件是具有两 种状态的电路(触发器)好处是 运算简单 实现方便 利息低 要清楚逻辑运算和算术运算规则的不同。 7. 二进制数据与十进制、八进制、十六进制数据之间的转换 要求:这几种进位计数制的数据,一定要会互相转换。 清楚各种数制的表示。如: 1010BH 什么进制 的数?十六进制数,不要答成二进制数。 8. 计算机字符数据的表示方式 字符数据主要指西文的 A SCII 码和汉字,计算机内是用什么代码表示的 A SCII 码:用 7 位二进制数表示的或用一个字节表示,最高位为 0 这是事实上的国际规范。 汉字编码:用连续的两个字节表示,且规定最高位为 1 这是中国国家规范。 9. 存储容量和地址 存储容量是存储部件存储单元的总和; 地址是存储单元的编号。 要求: 知道地址线,会求寻址空间 知道存储容量和起始地址,会求末地址 难点: 地址总线,地址信号 寻址、寻址空间 存储容量和地址信号的关系 10. 存储顺序和程序控制原理 1945 年,冯 诺依曼提出的现代计算机的理论基础。现代计算机已经发展到第四代,但仍遵循着这个 原理。 存储顺序和程序控制原理的要点是顺序输入到计算机中,存储在内存储器中(存储 原理)运行,控制器按地址顺序取出存放在内存储器中的指令(按地址顺序访问指令 )然后分析指令,执行指令的功能,遇到转移指令,则转移到转移地址,再按地址顺 序访问指令(顺序控制) 11. 指令和程序 指令是包括有操作码和地址码的一串二进制代码。其中操作码规定了操作的性质 什么样的操作 地址码表示了操作数和操作结果的存放地址。 顺序是为解决某一问题而设计的一系列排列有序的指令或语句(顺序设计语言的语 句实质包括了一系列指令)集合。 12. 计算机硬件的组成及各组成部分的功能 要理解以存储器为中心的计算机组成原理图 运算器:对信息和数据进行运算和加工处理,运算包括算术运算和逻辑运算。 控制器:实现计算机自身处置过程的自动化,指挥计算机各部件按照指令功能的要 求进行所需要的操作。 存储器:存储顺序和数据。 输入部件:输入顺序和数据。 输出部件:输出计算机的处置结果。 13. CPU 微处理器的概念 CPU 即中央处理单元,计算机的核心部件,包括了运算器和控制器两大部件 微处理器:微型机上使用的 CPU 利用大规模集成电路技术把运算器和控制器制作在一块集成电路中的芯片。 微型计算机:以微处理器为核心,加上用大规模集成电路做成的 RA M 和 ROM 存储芯片、输入输出接口芯片等组成的计算机计算机型号和 CPU 型号的关系: Intel80286 286 微机 Intel80386 386 微机 Intel80486 486 微机 14. 构成内存储器的半导体存储部件 RA M 和 ROM 特性 内存储器由两种半导体芯片构成。 RA M 随机存取存储器,也叫读写存储器。用来存放用户输入的顺序

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 50
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值