数据的存储
先要了解的东西
先说一点内存的知识:
为了有效的使用内存,就把内存划分成一个个小的内存单元,每个内存单元的大小是1个字节(byte)。
为了能够有效的访问到内存的每个单元,就给内存单元进行了编号,这些编号被称为该内存单元的地址。
这里的内存其实和我们生活中的楼房是很相似的。
就比如说我们学校的每一栋宿舍楼里面的每一个房间都有对应的门牌号,如果说我想要找到某位同学(在某栋楼的某栋宿舍),我就只需要查出来TA所在的宿舍楼->门牌号即可。
现在我们类比到现在所讲的内存,宿舍楼相当于我们的内存的某一个区,楼里的每一个房间相当于区中的每一个字节(byte)大小的内存单元,那么所有的数据其实就都存放在内存单元中的,只不过有的数据比较大,有的数据比较小(由于数据的类型不同,其所占的空间大小也就不同),所占的内存单元总数不同,这也很好理解,就比方说现实生活中有的人很有钱,可以买好几间房子,而有的人没那么有钱,就只有一间房子可住。那么数据的地址编码就是对应于房间的门牌号。
再给大家讲一下地址是如何生成的:
这就涉及到硬件方面的东西了,每台电脑都对应有32位或64位操作系统,多少位就对应有多少根寻址线,比方说32位操作系统下就有32根寻址线,每一根寻址线都可以通电,电又分为低频和高频,当某一跟线通的是高频时,这根线的二进制表示就是1,同理,通低频时,这根线的二进制表示就是0,这个要留个印象
而且2的32次方对应的就是4G的大小,64次方对应的就是8G的大小对于二进制和十六进制的转换,二进制中连续的4位对应于十六进制中的1位。这样用十六进制表示就会非常的方便。
举个栗子,对于十进制中的8,495
在二进制中就表示为 0010 0001 0010 1111
在十六进制中就表示为 2 1 2 F大家若是不会转换的话可以在网上搜一搜,我就不讲进制转换了。
下面就给大家看一张图来理解一下:
再给大家看看在编译器上的显示
一个字节(byte)八个比特(bit)位,这个东西要牢记,等会会用到。
1. 数据类型介绍
前面的博客我也涉猎过这些东西了,就过一遍。
基本的内置类型:这些类型(char到long long)区别就是大小不一样,占用不同大小的字节,所以有了这些名字上的区别,存储的数据其实是差别不大的。而float和double在下面会讲到。
char //字符数据类型
short //短整型
int //整形
long //长整型
long long //更长的整形
float //单精度浮点数
double //双精度浮点数
1.1 类型的基本归类
整形家族:
还可以更细致的讲讲:char
short
int
long
浮点数家族:
float
double
构造类型:
数组类型(数组内部类型元素和数组大小由我们来定)
结构体类型 struct(结构体中的数据也是由我们定,下面的enum和union也是)
枚举类型 enum
联合类型 union
指针类型
int *pi;
char *pc;
float* pf;
void* pv;
空类型:
void 表示空类型(无类型)
通常应用于函数的返回类型、函数的参数、指针类型
2. 整形在内存中的存储:原码、反码、补码
我前面的博客也讲到了原码反码补码这些知识点,一些比较基础的我就不讲那么详细了,具体看这一篇:整形在内存中的存储
在计算机中,整数有3种2进制的表示方法,原码、反码、补码。
三种表示方法均有符号位和数值位两部分
符号位都是用0表示“正”,用1表示“负”
而对于数值位来说:正数的原、反、补码都相同;负整数的三种表示方法各不相同。
对于整数来说,数据存放的时候存的都是补码。因为使用补码,可以将符号位和数值域统一处理;同时,加法和减法也可以统一处理(CPU只有加法器)此外,补码与原码相互转换,其运算过程是相同的,不需要额外的硬件电路。
那么前面为什么会有signed和unsigned之分呢,下面我们细🔒。
我们以整形char为例:我们知道char是1个字节大小,而一个字节八个比特位,那么在内存中以二进制存储的时候就会有8个比特位。
当我们以signed表示一个数的时候,最高位代表这个数的正负,所以不参与数值的大小,那么signed char类型的变量取值范围就是-128~127。
但是当我们以unsigned表示一个数的时候,最高位不代表符号位了,是参与数值大小的。所以用unsigned表示的时候一个unsigned char类型的变量取值范围就是0~255。
但为什么是这样的范围呢,我们看图说话:
signed char类型
unsigned char类型
就将这些就够了,其他的类型就是照葫芦画瓢的,这个懂了别的就都懂了。
那么还要看一个东西:
如上图所示,数据为什么是反着存的,那么就要开始将大小端了。
这也是我在我的第一篇C的博客里挖的一个坑,现在给它埋上。
3. 大小端字节序介绍及判断
什么是大端小端:
大端(存储)模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;
小端(存储)模式,是指数据的低位保存在内存的低地址中,而数据的高位,,保存在内存的高地址中。
简单来说就是:
小端低位低地址,高位高地址。
大端低位高地址,高位低地址。
那么什么是高低位,什么是高低地址呢。
看图:
高低位:
高低地址
那么大小端是什么样的呢。
看图:
我们再用vs2019看一下,这台机器是大端还是小端。
那么为什么会有大小端呢?
这是因为当我们想要存放数据时,每个位的顺序可以随便放,但是你放进去之后要对应的取出来,如果你存放数的时候特别的无序,那么取的时候就会非常的麻烦,那么这时候大端存储模式和小端存储模式就显得非常简便了。
更专业的讲:这是因为在计算机系统中,我们是以字节为单位的,每个地址单元都对应着一个字节,一个字节为8 bit。但是在C语言中除了8 bit的char之外,还有16 bit的short型,32 bit的long型(要看具体的编译器),另外,对于位数大于8位的处理器,例如16位或者32位的处理器,由于寄存器宽度大于一个字节,那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。
例如:一个 16bit 的 short 型 x ,在内存中的地址为 0x0010 , x 的值为 0x1122 ,那么 0x11 为高字节, 0x22 为低字节。对于大端模式,就将 0x11 放在低地址中,即 0x0010 中, 0x22 放在高地址中,即 0x0011 中。小端模式,刚好相反。我们常用的 X86 结构是小端模式,而 KEIL C51 则为大端模式。很多的ARM,DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。
在讲上这么一道题:
怎么做呢?
像这样:
至于说为什么呢,可以先看一下我这篇博客:细看 2.2 指针的解引用。再来看下面的解释。
定义了一个int a = 1;
它在内存中以十六进制表示的时候就是(地址从左到右由低到高):大端:00 00 00 01
小端:01 00 00 00
当char* p指向a的地址的时候解引用的是一个字节大小,也就低地址处的数。
此时若是大端,*p就为0
此时若是小端,*p就为1
应该是讲清了。若没看懂,那就拐回头再看。
我把代码留这里:
int main()
{
int a = 1;
char* p = (char*)&a;
if (*p == 1)
printf("小端\n");
else
printf("大端\n");
return 0;
}
4. 浮点型在内存中的存储解析
4.1举个栗子
为啥要把浮点数的分开来说呢,原因竟是…
首先看一个例子:
结果为啥会差的这么多?
这就要讲一讲浮点数的存储规则了。
4.2浮点数的存储规则
在上面的例子中,pFloat指向了n,但是打印出来却天差地别。想要弄清为啥,得先搞清浮点数在计算机内部的表达方式。
空间还是那么大,只是安排在变化。
根据国际标准IEEE(电气和电子工程协会) 754,任意一个二进制浮点数V可以表示成下面的形式:
(-1)S ✖ M ✖ 2E
(-1)S表示符号位,当S=0,V为正数;当S=1,V为负数。
M表示有效数字,大于等于1,小于2。
2E表示指数位。
举个栗子:
十进制的5.0,写成二进制是 101.0 ,相当于 1.01×22 。
也就是(-1)0 ✖ 1.01 ✖ 22
那么,按照上面V的格式,可以得出S=0,M=1.01,E=2。
那么对于float来说,4个字节,32个比特位(1位S,8位E,23位M)
在内存中是这样安排的:
对于double来说,8个字节,64个比特位(1位S,11位E,52位M)
在内存中是这样安排的
但是IEEE 754对有效数字M和指数E,还有一些特别规定。
对于M来说
前面说过, 1≤M<2 ,也就是说,M可以写成 1.xxxxxx 的形式,其中xxxxxx表示小数部分。
IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxxxx部分。比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。这样做的目的,是节省1位有效数字。以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字。
对于E来说
首先,E为一个无符号整数(unsigned int)这意味着,如果E为8位,它的取值范围为0~255;如果E为11位,它的取值范围为0~2047。
但是,我们知道,科学计数法中的E是可以出现负数的,所以IEEE 754规定,存入内存时E的真实值必须再加上一个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023。比如,2^10的E是10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。然后,指数E从内存中取出还可以再分成三种情况:
E不全为0或不全为1
这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1。
比如:0.5的二进制形式为0.1,由于规定正数部分必须为1,即将小数点右移1位,则为1.0*2^(-1),其阶码为-1+127=126,表示为01111110,而尾数1.0去掉整数部分为0,补齐0到23位00000000000000000000000,则其二进制表示形式为:
0 01111110 00000000000000000000000E全为0
这时,浮点数的指数E等于1-127(-126)(或者1-1023(-1022))即为真实值,有效数字M不再加上第一位的1,而是还原为0.xxxxxx的小数。这样做是为了表示±0,以及接近于0的很小的数字。E全为1
这时,指数位就变成了2128,是一个非常大的数,如果有效数字M全为0,这个数就表示±无穷大(正负取决于符号位s);
那么我们现在就来解释一下那道例题。
这就是float类型的存储,细细钻研,不难的。如果我的这些你们没看懂,可以到B站看鹏哥的视频(数据的存储进阶)。
结束。