数据的编码表示

数据的编码表示
1.基本概念

(1)编码
     计算机要处理的数据除了数值数据以外,还有各类符号、图形、图像和声音等非数值数据。而计算机只能识别两个数字。要使计算机能处理这些信息,首先必须将各类信息转换成“0”和“1”表示的代码,这一过程成为编码。

(2)数据
     能被计算机接受和处理的符号的集合都称为数据。
     数据和信息是一对比较容易混淆的术语。
     数据是计算机处理的对象,是信息的载体,或称编码了的信息;
     信息是数据经过加工处理以后的结果,是有意义的数据的内容。

(3)比特
     比特(Bit:Binary Digit ——二进制数位)是指1位二进制的数码(即0或1)。比特是计算机中表示信息的数据编码中的最小单位。

(4)字节
     字节表示被处理的一组连续的二进制数字。通常用8位二进制数字表示一个字节,即一个字节由8个比特组成。
     字节是存储器系统的最小存取单位。

2.数值数据的表示
    数值数据有大小和正负之分。
    通常在微型计算机中,用两个字节表示一个整数,用四个字节表示一个实数。在二进制数的最前面规定一个符号位:“0”表示正数,“1”表示负数。
    数据表示方法通常有定点数表示和浮点数表示两种。

(1)定点数的表示

①定点整数:小数点的位置在最低数值位的后面,用于表示整数  (如图1所示)
数符数值
(图1)
 
②定点小数:小数点的位置约定在最高数值位的前面,用于表示小于1的纯小数  (如图2所示)。
(图2)


(2)浮点数的表示

    浮点数的表示来源于数学中的指数形式:
    N=M×Rc
    式中R表示进制数的基数。N可以用下面两个部分表示。

①尾数M。尾数为小于1的小数。尾数的长度影响数据的精度。
②阶码c。阶码相当于数学中的指数。阶码的大小影响浮点数可以表示的数据的大小范围。
( 如图3所示)给出了浮点数的表示方法。
阶符阶码尾符尾数
( 图3)


3.字符的表示
    字符是人与计算机交互过程中不可缺少的重要信息。要使计算机能处理、存储字符信息,首先也必须用二进制“0”和“1”代码对字符进行编码。
    下面以西文字符和汉字字符为例,介绍常用的编码标准。

(1)ASCII编码
    ASCII编码是由美国国家标准委员会制定的一种包括数字、字母、通用符号和控制符号在内的字符编码集,全称叫美国国家信息交换标准代码(American Standard Code for Information Interchange)。ASCII码是一种7位二进制编码,能表示27=128种国际上最通用的西文字符,是目前计算机中,特别是微型计算机中使用最普遍的字符编码集。详见表1.2。

    ASCII编码包括4类最常用的字符。
①数字“0”~“9”。ASCII编码的值分别为0110000B~0111001B,对应十六进制数为30H~39H。
②26个英文字母。大写字母“A”~“Z”的ASCII编码值为41H~5AH,小写字母“a”~“z”的ASCII编码值为61H~7AH。
③用字符。如“+”、“-”、“=”、“*”和“/”等共32个。
④制符号。如空格符和车符等共34个。

    ASCII码是一种7位编码,它存时必须占全一个字节,也即占用8位:b7b6b5b4b3b2b1b0,其中b7恒为0,其余几位为ASCII码值。

(2)汉字编码

    国家标准汉字编码集(GB2312-80)共收集和定义了7445个基本汉字。其中,使用频度较高的3755个汉字定义为一级汉字。使用频率较低的3008个汉字定义为二级汉字,共有6763个汉字。另外还定义了拉丁字母、俄文字母、汉语拼音字母、数字和常用符号等682个。
    GB2312-80规定每个汉字用2个字节的二进制编码,每个字节最高位为0,其余7位用于表示汉字信息。
    例如,汉字“啊”的国标码的2个字节的二进制编码00110000B和00100001B,对应的十六进制数为30H和21H。
    另外,计算机内部使用的汉字机内码的标准方案是将汉字国标码的2个字节二进制代码的最高位置为1,从而得到对应的汉字机内码。
    如汉字“啊”的机内码为10110000B、10100001B(即B0H、A1H)。
    计算机处理字符数据时,当遇到最高位为1的字节,便可将该字节连同其后续最高位也为1的另一个字节看作1个汉字机内码;当遇到最高位为0的字节,则可看作一个ASCII码西文字符,这样就实现了汉字、西文字符的共存与区分。
    2000年3月17日,国家信息产业部和国家质量技术监督局联合颁布了GB18030-2000《信息技术 信息交换用汉字编码字符集基本集的扩充》。在新标准中采用了单、双、四字节混合编码,收录了27000多个汉字和藏、蒙、维吾尔等主要的少数民族文字,总的编辑空间超过了150万个码位。新标准适用于图形字符信息的处理、交换、存储、传输、显示、输入和输出,并直接与GB2312-80信息处理交换码所对应的事实上的内码标准相兼容。所以,新标准与现有的绝大多数操作系统、中文平台兼容,能支持现有的各种应用系统。

(3)汉字输入码
    汉字输入方法很多,如区位、拼音、五笔字型等。不同输入法有自己的编码方案,所采用的编码方案统称为输入码。输入码进入机器后必须转换为机内码进行存储和处理。
    如,以全拼输入方案键入“neng”,或以五笔字型输入方案“ce”,都能得到“能”这个汉字所对应的机内码。这个工作由汉字代码转换程序依靠事先编制好的输入码对照表完成转换。

(4)汉字字形码
    汉字字形码是一种用点阵表示字形的码,是汉字的输出形式。它把汉字排成点阵。常用的点阵由16×16、24×24、32×32或更高。
    一个16×16点阵的汉字字形要占32个字节,24×24点阵要占72个字节。……
    所有不同的汉字字体的字形构成汉字库,一般存储在硬盘上,当要显示输出时,才调入内存,检索到要输出的字形送到显示器输出。

(5)图像的表示
    一幅图像可认为是由一个个像点构成的,这些像点称为像素。每个像素必须用若干二进制位进行编码,才能表示出现实世界中的五彩缤纷的图像。
    当将图像分解成一系列像点、每个点用若干bit表示时,我们就把这幅图象数字化了。
    数字图像数据量特别巨大,假定画面上有150000个点,每个点用24个bit来表示,则这幅画面要占用450000个字节。如果想在显示器上播放视频信息,一秒钟需传送25幅画面,相当与11250000个字节的信息量。因此,用计算机进行图像处理,对机器的性能要求是很高的。

(6)声音的表示
    声音是一种连续变化的模拟量,我们可以通过“模/数”转换器对声音信号按固定的时间进行采样,把它变成数字量。一旦转变成数字形式,便可把声音储存在计算机中并进行处理了。

 

                         (http://ie.zjou.edu.cn/xdjy/computer/chapter1/lesson1_3_3.htm)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值