深度刨析数据在内存中的存储

1.数据类型介绍

在C语言篇章中我们就已经讲解了C语言当中的内置类型以及它们所占的空间。

char           //字符类型
short          //短整型
int            //整型
long           //长整型
long long      //更长的整型  
float          //单精度浮点型
double         //双精度浮点型

类型的意义:

  • 根据所选类型来开辟空间大小

1.1类型的基本分类

整型家族

char 
	unsigned char
	signed char
short
	unsigned short [int]
	signed short [int]
int 
	unsigned int
	signed int
long 
	unsigned long [int]
	signed long [int]

提问:为什么char属于整型家族?
回答:字符存储的时候,存储的ASCII码值,是整型,所以归类的时候放在整型家族。
浮点数家族

float
double

构造类型

数组类型;//例如 int arr[10] 的类型是 int [10]
结构体类型 struct;
枚举类型 enum;
联合体类型 union;

指针类型

int* 
char*
float*
void*

空类型

void 表示空类型
通常应用于函数的返回类型、函数的参数、指针类型。

2.整型在内存中的存储

程序中的每个变量的创建都是要在内存当中开辟空间的。开辟空间的大小根据不同类型而决定。

所以数据是怎样在内存中存储的?

以下面为用例

int a = 10;
//内存中的存储形式:00000000 00000000 00000000 00001010
int b = -20;
//内存中的存储形式:11111111 11111111 11111111 11101100

我们知道整型在内存中会开辟4个字节的空间来存储数据。在讲解存储前还需要些预备知识。

2.1 原码、反码、补码

计算机中的整数有3种二进制表示方法:原码、反码、补码。
3种表示方法均有符号位和数值位两部分,符号位都是用0表示,用1表示
正数的原码、反码、补码都相同

负数的三种表示方法个不相同 (以-20为例)

原码
直接将数值按照正负数的形式翻译二进制得到原码(和正数一样操作但是符号位为1)
10000000 00000000 00000000 00010100

反码
将原码的符号位不变,其他位依次按位取反得到反码。
11111111 11111111 11111111 11101011

补码
反码+1得到补码
11111111 11111111 11111111 11101100

对于整型来说:数据存放在内存种的补码,计算也是利用补码来计算的。
提问:为什么?
回答:

在计算机系统中,数值一律用补码来表示和存储。原因在于:使用补码,可以将符号位和数值域统一处理;
同时,加法和减法也可以统一处理(CPU只有加法处理器)此外,补码与原码相互转换,其运算过程是相同的,不需要额外的硬件电路。

以10+(-20)来验证

//如果以原码来进行相加
10的原码:00000000 00000000 00000000 00001010
-20的原码:10000000 00000000 00000000 00010100
相加得到:10000000 00000000 00000000 00011110 //得到-30显然不符合

//如果以补码来进行相加
10的补码:00000000 00000000 00000000 00001010
-20的补码:11111111 11111111 11111111 11101100
相加得到:11111111 11111111 11111111 11110110
转化为原码(-1取反/取反+1):10000000 00000000 00000000 00001010//得到-10结果正确

了解到内存中存储的是补码
现在打开vs2022进行验证。

#include <stdio.h>

int main()
{
	int a = 10;
	int b = -20;
	return 0;
}

调试过后打开内存窗口。
查看内存窗口验证

本质上内存中存放的是二进制,在vs上为了方便展示,显示的16进制。

//为此我们来转化一下,二进制转化16进制,每4位二进制数转化位1位16进制数。
//以10为例
0000 0000 0000 0000 0000 0000 0000 1010
0    0    0    0    0    0    0    a
0x0000000a
//-20的就是
1111 1111 1111 1111 1111 1111 1110 1100
f    f    f    f    f    f    e    c
0xffffffec

尽管和内存中的数字一样,但是总感觉顺序有点不对劲。
为什么呢?
这就要讲解大小端了

2.2 大小端的介绍

什么是大小端

小端字节序:把一个数据的低位字节内容,存放在低地址处,把一个数据的高位字节的内容,存放在高位地址处。
大端字节序:把一个数据的低位字节内容,存放在高地址处,把一个数据的高位字节的内容,存放在低位地址处。

提问:为什么要有大小端呢?
回答:

在计算机系统中,我们是以字节为单位的,每个地址单元都对应着一个字节,一个字节为8bit.但是在C语言中除了8bit的char外,还有16bit的short类型,32bit的long类型(long的大小具体看编译器).另外.对于位数大于18位的处理器,例如16位或者32位的处理器,由于寄存器宽度大于1个字节.那么必然存在着一个如何将多个字节安排的问题.因此导致了大端存储模式和小端存储模式.

例如:一个16bit的short类型x,在内存中的地址为0x0010,x的值为0x1122,那么0x11为高字节,0x22为低字节.对于大端模式,就将0x11放到低地址中,即0x0010中,0x22放在高地址中,即0x0011中.小端模式,刚好相反.我们常用的是x86结构的小端模式,而KEIL c51则为大端模式.很多ARM,DSP都是小端模式.有些ARM处理器还可以由硬件来选择大端还是小端模式.

练习:

设计一个小程序来判断当前机器的字节序

#include <stdio.h>

int main()
{
	int a = 1;
	char* pa = (char*)&a;
	if(*pa == 1)
		printf("小端\n");
	else
		printf("大端\n");
	return 0;
}
/*
解释:1的补码为 00000000 00000000 00000000 00000001
转化为16进制:0x00 00 00 01
如果是小端存储存储为: 01 00 00 00
利用char* 的指针类型只会取大小为1的字节数据的地址,于是就取到了01的地址
后面我们解引用的得到的就是1
如果是大端解引用得到就是0
由此区分大小端
*/

2.3 练习1

//输出什么
#include <stdio.h>

int main()
{
	char a = -1;
	signed char b = -1;
	unsigned char c = -1;
	printf("a=%d,b=%d,c=%d",a,b,c);
	return 0;
}
//打印结果:a=-1,b=-1,c=255
/*
a和b都是有符号的char
-1的原码为:10000001
-1的反码为:11111110
-1的补码为:11111111
%d打印整型提升(按符号位补齐):11111111 11111111 11111111 11111111(-1的补码打印-1)
c是无符号的char
-1的原码为:10000001
-1的反码为:11111110
-1的补码为:11111111
%d打印整型提升(因为c是无符号的char,用0补齐)00000000 00000000 00000000 11111111(255的补码)
*/

2.4 练习2

#include <stdio.h>
int main()
{
	char a = -128;
	printf("%u\n",a);
	return 0;
}
//打印结果:4294967168
/*
解释:
a是由符号的char
-128的补码:10000000 (-128特别表示)
整型提升(补1):11111111 11111111 11111111 10000000
因为%u是打印无符号的整型值,直接打印:转化成10进制位:4,294,967,168
*/

2.5 练习3

#include <stdio.h>
int main()
{
	char a = 128;
	printf("%u\n",a);
	return 0;
}
//打印结果:4294967168
/*
解释:无符号的char无法表示128,会转化成-128存储
所以打印和上一题一样.
*/

2.6 练习4

#include <stdio.h>
int main()
{
	int a = -20;
	unsigned int b = 10;
	printf("%d\n",a+b);
	return 0;
}
//打印结果:-10
/*
解释:
-20的补码:11111111 11111111 11111111 11101100
10的补码:00000000 00000000 00000000 00001010
直接相加后补码为:11111111 11111111 11111111 11110110
因为打印格式为有符号整型打印:转化为原码后就是-10
*/

2.7 练习5

#include <stdio.h>
int main()
{
	unsigned int i;
	for(i = 9;i>=0;--i)
	{
		printf("%u\n",i);
	}
	return 0;
}
//死循环打印
/*
9
8
7
6
5
4
3
2
1
0
4294967295
4294967294
4294967293
4294967292
4294967291
...
*/
//因为i无法变为负数,循环不会停止

2.8 练习6

#include <stdio.h>
#include <string.h>
int main()
{
	char a[1000];
	int i = 0;
	for(i = 0;i<1000;++i)
	{
		a[i] = -1-i;
	}
	printf("%d",strlen(a));
	return 0;
}
//打印结果:255
/*
从-1开始赋值,依次递减当等于-128时再次减1会变成127,然后减到0
除去0一共255个数
*/

3.浮点型再内存中的存储

常见的浮点数:

3.14159
1E10 (1.0*10^10)
浮点数家族包括:float,double,long double
浮点数表示的范围:在头文件float.h中定义

3.1 引例

#include <stdio.h>
int main()
{
	int n = 9;
	float* pfloat = (float*)&n;
	printf("n的值为:%d\n",n);
	printf("*pfloat的值为:%f\n",*pfloat);
	*pfloat = 9.0;
	printf("n的值为:%d\n",n);
	printf("*pfloat的值为:%f\n",*pfloat);
	return 0;
}
//打印结果:
/*
n的值为:9
*pfloat的值为:0.000000
n的值为:1091567616
*pfloat的值为:9.000000
*/

从结果上来看,我们只能够推测整型和浮点型来内存中的存储方式不一样.
那浮点数在内存中是怎样存储的呢?

3.2 浮点数的存储规则

n*pfloat在内存中明明是同一个数,为什么浮点数和整数的解读结果会差别这么大呢?
为了理解这一现象,我能就要了解浮点数的存储规则.
根据国际标准IEEE(电气电子工程师学会)754,任意一个二进制浮点数V可以表示成下面的形式:

  • (-1)^S*M*2*E
  • (-1)^S表示符号位,当S=0,V为正数;当S=1,V为负数.
  • M表示有效数字,必须大于等于1,小于2;
  • 2^E 表示指数位
    以5.5为例
    十进制的5.5,写成二进制就是101.1,相当于1.011*2^2
    那么按照上面的格式就可以写成:(-1)^0*(1.011)*2^(2)
    那么S = 0,M = 1.011,E = 2;
    以-5.0为例
    十进制的-5.0,写成二进制是-101.0相当于-1.01*2^2
    那么S = 1,M = 1.01,E = 2

IEEE 754规定:
对于32位的浮点数,最高的一位是符号位S,接下来8位是指数E,剩下的23位为有效数字M
单精度浮点型

对于64位的浮点数,最高的一位是符号位S,接下来11位是指数E,剩下的52位为有效数字M.
双精度浮点型

IEEE 754对数字M和指数E,还有一些特别的规定.
前面说过,1<=1<2也就是说,M可以写成1.xxxxxx的形式,其中xxxxxx表示小数部分.
IEEE 754规定
在计算机内部保存M时,默认这个数的第一位总是1,因此可以舍去存储1的位置,只保留后面的xxxxxx部分.比如在存储1.01的时候只保留01,等读取的时候,在把第一位的1加上去,这样做的目的就是省去1位的有效数字.以32位浮点数位例,留给M只有23位,将第一位的1舍去后,就等于可以保存24位有效数字了.
至于指数E,情况比较复杂
首先,E为一个无符号整数(unsigned int)
这样我着,如果如果E为8位,它的取值范围为0~ 255;如果E为11位,它的取值范围为0~2047.但是,我们知道科学计数法的E是可以表示负数的,所以IEEE 754规定,存入内存E的真实值必须再加上一个中间数,对于8位的E,这个中间数是127,对于11位的E这个中间数是1023.比如2^10的E是10.所以保存成32位浮点数时,必须保存成10+127 = 137,即 10001001
然后,指数E从内存中取出还可以分位为3种情况:
E不全为0或者不全为1

这时,浮点数就采用下面的规则表示,即指数E的计算减去127(或者1023),得到真实值,再将有效数字M前加上第一位的1.
比如:
0.5的二进制为:0.1,由于规定正数部分必须为1,将小数点右移1位,则为1.0*2^(-1),其阶码为-1+127 = 126,表示为:01111110,而位数1.0去掉整数部分为0,补齐0到23位00000000 00000000 0000000
所以0.5的二进制表示形式位:

0 01111110 00000000000000000000000

E全为0

这时,浮点数的指数E表示1-127(或者1-1023)即为真实值,
有效数字M不在加上第一位的1,而是还原为0.xxxxxx的小数.这样做是为了表示正负0,以及无限接近于0
的很小数字.

E全为1

这时,如果有效数字E全为1,表示正负无穷大(正负取决于符号位S)

这就是浮点数的规则

理解完规则后,我们再来看前面的那到题.

#include <stdio.h>
int main()
{
	int n = 9;
	float* pfloat = (float*)&n;
	printf("n的值为:%d\n",n);
	printf("*pfloat的值为:%f\n",*pfloat);
	*pfloat = 9.0;
	printf("n的值为:%d\n",n);
	printf("*pfloat的值为:%f\n",*pfloat);
	return 0;
}
//打印结果:
/*
n的值为:9
*pfloat的值为:0.000000
n的值为:1091567616
*pfloat的值为:9.000000
*/
9的补码为:
00000000 00000000 00000000 00001001
以浮点数的形式理解就是:
S = 1
E = 0-127
M = 1.00000000000000000001001
V = (-1)^0*1.00000000000000000001001*2^(-127)=1.001*2^(-146)
显然,V是一个很小的数,接近于0,所以用十进制数小数表示为:0.000000
9.0的二进制为:1001.0
化为标准形式为:(-1)^0*1.001*2^3.
S = 0
E = 3 
M = 1.001
存到内存中就表示为:
0  10000010 00100000000000000000000
0  3+127       1.001

将01000001000100000000000000000000转化成10进制就是:1,091,567,616和刚刚的程序就对应了

  • 30
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yui_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值