数据在内存中的存储

1. 写在开始

对一个合格且优秀的开发人员来说,能够明晰和掌握计算机底层运作机制是尤为重要的;否则,在解决开发过程中所遇到的问题时,就会如同盲人摸象,而没有头绪。因此,笔者今天的博客内容,主要是对近一段时间内学习数据在内存中的存储方式的总结与梳理(C语言)。内容如下:

 

2. 数据类型

2.1 整型

整型家族:

char:

        unsigned  char 

        signed  char 

short:

        unsigned  short

        signed  short

int:

        unsignde  int 

        signed  int

long:

        unsigned  long

        signed  long

  • char虽然是字符类型,但是字符类型的数据进行存储的时候,存储的是字符的ASCII码值,所以仍归为整型;
  • char创建的变量,无法确定其是否具有符号位,因为取决于编译器;
  • short、int、long等数据类型,在创建相应的变量时,默认创建的是有符号位的相应数据类型变量

每一种数据类型都是有取值范围的! 如:

unsigned  char  : 0  ~ 255 

signed  char : -128 ~ 127

2.2 浮点型家族

  • float
  • double
  • long double (C99标准引入)

2.3 构造类型

  • 结构体类型
  • 数组类型
  • 枚举类型
  • 联合类型

2.4 指针类型

  • char*  pc
  • int*  pi
  • float*  pf
  • void*  pv

2.5 空类型

  • void
    • 函数的返回类型
    • 函数的参数
    • 指针类型

3. 存储方式

3.1 整型数据在内存中的存储方式

3.1.1 三种表示方式

原码、反码和补码

  • 原码: 直接将数值按照正负数的形式翻译成二进制序列
  • 反码: 在原码的基础上,符号位不变,其它位按位取反
  • 补码: 在反码的基础上,加1

另外,我们还需知道:

  •  在内存中,整型数据是按照补码进行存储的
  • 正整数的原码、反码和补码相同;
  • 负整数的反码和补码,要在原码的基础上,按照规则计算出来。

3.2 大小端字节序的存储方式

3.2.1 大小端字节序是什么(What)

  • 大端字节序存储:

               把一个数据的低数值位,存放在高地址处;而高数值位,存放在低地址处。

  • 小端字节序存储:

               把一个数据的低数值位,存放在低地址处;而高数值位,存放在高地址处。

3.2.2 为什么会出现大小端字节序(Why)

      我们知道,当创建一个整型变量,会在内存空间中开辟4个内存单元的空间;于是,当数据存储在内存中占用的空间超过1个字节,就无可避免地产生了如何安排多个字节顺序的问题

编程习题:请设计一个小程序,判断当前机器的字节序。

参考代码:

int CheckSys()
{
	int a = 1;
	return *(char*)&a; // 取出第一个字节
}

int main()
{
	/*int a = 1;*/
	//00000000000000000000000000000001  - 二进制
	//0x 00 00 00 01 - 十六进制 
	int ret = CheckSys();
	if (ret)
	{
		printf("小端字节序\n");
	}
	else
	{
		printf("大端字节序\n");
	}
}

3.3 浮点型数据在内存中的存储方式

3.3.1 IEEE 754

IEEE 754 是由美国IEEE(电气和电子工程协会),制定的二进位浮点数算术标准,是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用。

IEEE 754规定,任何一个二进制浮点数V可以表示为如下形式

                                                ​​​​​​​          ​​​​​​​\left ( -1 \right )^S * M * 2E        

  • (-1)^S  : 表示符号位;当S=0时,为正数;当S=1时,为负数;
  • M :  表示有效数字,取值范围为1\leq M< 2 ;
  • 2E : 表示指数位。

举个例子:

十进制的5.0,改写成二进制则为 101.0,相当于 1.01 * 2^2

按照IEEE 754规定的格式,此时,S=0 、M=1.01 、E=2

3.3.2 32位浮点数在内存中的存储形式

对于32位的浮点数,最高的1位是符号位S,接着的8位是指数E,剩下的23位为有效数字M。

 3.3.3 64位浮点数在内存中的存储形式

对于64位的浮点数,最高的1位是符号位S,接着的11位是指数E,剩下的52位为有效数字M。

 3.3.4 有效数字M与指数E的一些特别规定 

有效数字M

IEEE 754规定在保存M时,可以将第一位的1舍去,从而能够保存24位有效数字;

为什么呢(Why)?

前面提到过,M的取值范围为:1\leq M< 2,因次M总是可以写成 1.xxxxxx的形式, xxxxxx为小数部分;于是,IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的小数部分。这样做的目的,是节省1位有效数字。

指数E在内存中的存储

指数E,在内存中是以无符号整型(unsigned int)的形式进行存储的;如果E为8位,则取值范围为0\leq E\leq 255;如果E为11为,则取值范围为0\leq E\leq 2047.

但我们知道,科学计数法的表示,是可以允许出现负数的

为此,IEEE 754规定 存入内存时E的真实值必须再加上一个中间数,对于8位的E,这个中间数

是127;对于11位的E,这个中间数是1023。

指数E从内存中取出

  • E不全为0或不全为1:

                  这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1;

  • E全为0:

                   这时,浮点数的指数E等于1-127(或者1-1023)即为真实值;此时相当于,表示接近于0的很小的数;

  • E全为1:

                  这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s)。

4. 对计算机运行机制的一瞥

4.1 计算机对数据的解读机制

我们先来看一段代码,如下:

int main()
{
	char a = 128;
	int n = 9;
	float* pf = (float*)&n;
	printf("%d\n", a);
	printf("%u\n", a);
	
	printf("\n");
	printf("%f\n", *pf);

	*pf = 9.0;
	printf("%d\n", n);
	printf("%f\n", *pf);

	return 0;
}

运行结果:

 分析如下:

char a = 128

128的二进制形式
00000000000000000000000010000000 - 原码
正整数的原码、反码与补码相同
00000000000000000000000010000000 - 128的补码
将128的补码,存储在char类型的变量中,要发生截断
10000000 - 变量a中保存的二进制序列

printf("%d\n", a)
%d 意味着将a中的二进制序列,以有符号的整型的方式进行打印
将10000000进行整型提升,以符号位进行扩充
11111111111111111111111110000000 - 补码
11111111111111111111111101111111 - 反码
10000000000000000000000010000000 - 原码 
即为 -128


printf("%u\n", a)
%u 意味着将a中的二进制序列,以无符号的整型的方式进行打印
将10000000进行整型提升,以符号位进行扩充
11111111111111111111111110000000 - 补码
此时,因为是以无符号的整型的方式进行打印
于是,printf函数会将11111111111111111111111110000000看作为一个正整数的补码
而正整数的原码、反码与补码相同
于是printf将会,把11111111111111111111111110000000所对应的十进制的数值打印出来
即为 4294967168
int n = 9

9的二进制形式
00000000000000000000000000001001 - 原码、反码与补码

float* pf = (float*)&n
对取地址得到的int* 的指针变量,即n的地址,进行强制类型转换
转换为float* 类型的指针类型,并赋值给pf指针变量

printf("%f\n",*pf)
*pf 意味着对pf进行解引用,访问其指针指向的值,即n
 %f 意味着以浮点数的形式,将n的值打印出来,于是printf函数,将以IEEE 754的标准来解读该二进制序列
 0 - S(符号位) 00000000 -E(指数)  00000000000000000001001 - M(有效数字)
 E为全0,即真实值为 1-127 = -126,为一个接近0的非常小的数
 即打印出 0.00000

*pf = 9.0
将n的值,改为浮点数9.0
因为pf为float* 类型的指针变量,所以9.0,将以IEEE 754的标准进行存储
9.0的二进制形式
1001.0  ->  1.001 * 2^3
即 S = 0、 M = 1.001 、 E = 3(真实值) + 127 = 130 (存储值)
写成二进制序列为:0 10000010 00100000000000000000000

printf("%d\n", n)
%d 意味着以有符号的整型的形式对该二进制序列进行打印
即为 1091567616

printf("%f\n", *pf)
%f 意味着以浮点数的形式,将pf指向的值打印出来,即以IEEE 754的标准,对该二进制序列进行解读
即为 9.00000

结论:

由此,我们能够得出,数据以二进制的形式,存储在计算机的存储介质中;但影响我们所看到数据的最终结果,则取决于,我们对计算机下达的指令,即对存储在计算机存储介质中二进制序列的解读方式,如

  • %u : 意味着告诉计算机,要以无符号整型的方式(即无符号位),对内存中的二进制序列,进行解读;
  • %d :意味着告诉计算机,要以有符号整型的方式(即无、有符号位),对内存中的二进制序列,进行解读;
  • %f  :  意味着告诉计算机,要以IEEE 754的标准,对内存中的二进制序列,进行解读。 

于是,同一个二进制序列,计算机指令不同,即解读的方式不同,我们最终得到的结果也将不同。

4.2 计算机对文件的解读机制

同理,存储在计算机中的各种文件,其本质也都为二进制文件,存储得也都是一串串由0、1排列组成的二进制序列

关键就在于文件的后缀名,决定了对这些文件的解读方式;如.txt, 就意味着打开该文件之后,将以文本的形式,进行解读,对内容进行组织和呈现。

 5. 小结

这篇文章,主要是对数据在内存中的存储方式进行了总结,重点要掌握整型数据是如何在内存中进行存储的,还有浮点型数据是如何在内存中进行存储的(IEEE 754);对于每一个开发者来说,这些都是必须要掌握的知识,就如同武林高手修炼内功一般;希望这篇文章,能够给读者带来收获!

IEEE 754在线计算器:  IEEE-754 Floating Point Converter

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值