计算机中数据的本质

声明:我的文章完全是原创,转载需要注明出处,并且本人享有该文章的所有知识产权。

经过上篇文章,我们了解了软件和硬件,那么今天我们来讨论一下真实的计算机中是如何存储数据的。

首先我们讨论一下二进制,二进制说来很简单,无非就是1和0。由于我们的计算机是电子产品,里面有的只有电路结构,也就是我们所有的理论都需要建立在物理层面上,那么我们1和0究竟是怎么得到的呢?

在之前讲过,灯泡的开关,我们可以用1代表开,用0带表关。但是真实的情况是这样的吗?

其实在真正的应用中,我们主要使用的是两类逻辑0和1的表示方式(TTL,RS-232)

TTL常用标准:

如果电源电压为5V,那么低于低于0.8V为0,3.6V(2.4V~5V)为1

如果电源电压为3.3V,那么低于0.8V为0,3.4V(2~2.4V)为1

RS-232常用标准:

+3V~+15V表示0,-3V~-15V表示1

这就是逻辑电路里的1和0的表示方式。有了这个基础,我们再来看一下在我们系统中是如何表示各种符号的。

由于我们一个电信号只能更精确的表示两种状态,因此,如果只使用1位二进制数来表示我们遇到的各种符号(文字,标点等)是不现实的,那么计算机是怎么表示这些信息的呢?

由于摩尔发明了电报,他们只需要27个符号就能表达出所有常用的字母数字和字符,因此一开始是使用了7个二进制位来表达字母和数字以及标点符号--ASCII

ASCII控制字符

二进制十进制十六进制缩写可以显示的表示法名称/意义
0000 0000000NUL空字符(Null)
0000 0001101SOH标题开始
0000 0010202STX本文开始
0000 0011303ETX本文结束
0000 0100404EOT传输结束
0000 0101505ENQ请求
0000 0110606ACK确认回应
0000 0111707BEL响铃
0000 1000808BS退格
0000 1001909HT水平定位符号
0000 1010100ALF换行键
0000 1011110BVT垂直定位符号
0000 1100120CFF换页键
0000 1101130DCR归位键
0000 1110140ESO取消变换(Shift out)
0000 1111150FSI启用变换(Shift in)
0001 00001610DLE跳出数据通讯
0001 00011711DC1设备控制一(XON 启用软件速度控制)
0001 00101812DC2设备控制二
0001 00111913DC3设备控制三(XOFF 停用软件速度控制)
0001 01002014DC4设备控制四
0001 01012115NAK确认失败回应
0001 01102216SYN同步用暂停
0001 01112317ETB区块传输结束
0001 10002418CAN取消
0001 10012519EM连接介质中断
0001 1010261ASUB替换
0001 1011271BESC跳出
0001 1100281CFS文件分割符
0001 1101291DGS组群分隔符
0001 1110301ERS记录分隔符
0001 1111311FUS单元分隔符
0111 11111277FDEL删除

ASCII可显示字符

二进制十进制十六进制图形
0010 00003220(空格)(␠)
0010 00013321!
0010 00103422"
0010 00113523#
0010 01003624$
0010 01013725 %
0010 01103826&
0010 01113927'
0010 10004028(
0010 10014129)
0010 1010422A*
0010 1011432B+
0010 1100442C,
0010 1101452D-
0010 1110462E.
0010 1111472F/
0011 000048300
0011 000149311
0011 001050322
0011 001151333
0011 010052344
0011 010153355
0011 011054366
0011 011155377
0011 100056388
0011 100157399
0011 1010583A:
0011 1011593B;
0011 1100603C<
0011 1101613D=
0011 1110623E>
0011 1111633F?
 
二进制十进制十六进制图形
0100 00006440@
0100 00016541A
0100 00106642B
0100 00116743C
0100 01006844D
0100 01016945E
0100 01107046F
0100 01117147G
0100 10007248H
0100 10017349I
0100 1010744AJ
0100 1011754BK
0100 1100764CL
0100 1101774DM
0100 1110784EN
0100 1111794FO
0101 00008050P
0101 00018151Q
0101 00108252R
0101 00118353S
0101 01008454T
0101 01018555U
0101 01108656V
0101 01118757W
0101 10008858X
0101 10018959Y
0101 1010905AZ
0101 1011915B[
0101 1100925C\
0101 1101935D]
0101 1110945E^
0101 1111955F_
 
二进制十进制十六进制图形
0110 00009660`
0110 00019761a
0110 00109862b
0110 00119963c
0110 010010064d
0110 010110165e
0110 011010266f
0110 011110367g
0110 100010468h
0110 100110569i
0110 10101066Aj
0110 10111076Bk
0110 11001086Cl
0110 11011096Dm
0110 11101106En
0110 11111116Fo
0111 000011270p
0111 000111371q
0111 001011472r
0111 001111573s
0111 010011674t
0111 010111775u
0111 011011876v
0111 011111977w
0111 100012078x
0111 100112179y
0111 10101227Az
0111 10111237B{
0111 11001247C|
0111 11011257D}
0111 11101267E~

 

但是随着人们对信息的积累,发现还另外需要一些符号来表达相关的信息,因此IBM建议使用8位来表示所有的字母、数字、标点符号--ASCII扩展码。使用8位二进制来表示符号的方法一直延用至今。但是由于当时只是建议使用8位来表示信息,但是最后一位没有确定对应的符号,所以各个厂商根据自己的情况,定义了不同的符号,因此就有了不同的规范,因此有可能同一个扩展的ASCII代表的符号不同。这个比较少用,所以这里不再介绍。

前面花了很多时间在介绍ASCII,这是为何?因为我们现在的电子计算机,基本都遵守着这个约定来存取数据。用8个二进制位代表一个字符,IBM给这8个二进制位取了一个名字,叫做字节byte。同时一个二进制我们通常叫做位(bit)。

可能有朋友会想,在ASCII里没有中文啊,都是字母 数字 符号,那么中文是怎么存取的呢?

实际上我们的中文等象形文字都是使用两个字节(2byte)的方式进行数据的存取。我们把以2个字节的方式进行数据存取的方式叫做UNICODE编码。UNICODE编码有很多实现方案,导致相同的二进制数在不同的编码格式中代表了不同的含义,所以如果需要还原出原来的文字信息,就必须使用特定的编码方式才行,这里就像谍战片中的破敌方电报内容一样,好不容易截获了敌人的电报信息,还得靠密码本才能还原电报的内容。

常见的UNICODE编码有:UTF8,GB2312,GBK,ISO8859-1;

了解这个知识很重要,在以后编程过程中,经常会遇到编码问题导致屏幕显示的数据乱码。

当然,正如大家看到的那样,用0和1表示ASCII码的时候比较长,使用十进制显示的时候换算的时候比较麻烦,所以我们通常使用十六进制对计算机中的二进制信息进行显示。

二进制:由0~1组成,遇2进1.

十进制:由0~9组成,遇9进1

十六进制:由0~F组成,遇F进1(0~9,A~F)

由二进制转十六进制的方法:

把8位数据拆分为4位一组:0011 0000

以8、4、2、1原则进行计算

   8 4 2 1
x 0 0 1 1
---------
  0+0+2+1 = 3

由于4位二进制最大只能表示15,所以,我们使用十六进制简化8个二进制位的长度。因此0011 0000用十六进制表示为30,为了防止与十进制发生歧义,十六进制数通常在前面加上0x表示,因此最终结果为0x30。

作业:

1、如下ASCII表示的字母是什么

0x48 0x65 0x6c 0x6c 0x6f 0x20 0x57 0x6f 0x72 0x6c 0x64 0x21

2、使用UTF8的编码方式在存储中取得的信息如下,请帮忙还原一下该数据的值

0x00 0x48 0x00 0x65 0x00 0x6c 0x00 0x6c 0x00 0x6f 0x00 0x20 0x00 0x57 0x00 0x6f 0x00 0x72 0x00 0x6c 0x00 0x64 0x00 0x21

3、总结一下题1和题2的特点,并将ASCII与UNICODE建立联系

4、使用UTF8的编码方式编码“计算机软硬结合”,并写出来(通过查表的方式得到十六进制,再将十六进制转换为二进制)。

对应的作业请参考“百度”,比如UTF8的编码表

 

转载于:https://www.cnblogs.com/delsav/p/9236509.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值