深度剖析数据在内存中的存储----C语言

最新推荐文章于 2023-04-08 22:49:02 发布

疯狂嘚程序猿

最新推荐文章于 2023-04-08 22:49:02 发布

阅读量791

点赞数 1

分类专栏： C/C++ 文章标签：补码编程语言

本文链接：https://blog.csdn.net/qq_47406941/article/details/109584674

版权

C/C++ 专栏收录该内容

36 篇文章 0 订阅

订阅专栏

一、数据类型详细介绍

C语言中的基本数据类型包括整型、浮点型、字符型等，除了基本数据类型C语言中还有构造类型、指针类型、空类型。下面，详细介绍一下各种数据类型表示的意义以及不同数据类型占用的内存大小。

基本数据类型

C语言中不同数据类型占用的内存大小不一定相同，同时数据类型占用内存的大小还与编译器有关，下表提供了C语言的基本数据类型以及在32编译器和64位编译器下占用的字节数。

数据类型	存储数据	占用字节数（32位）	占用字节数（64位）
char	字符型数据	1	1
short	短整型数据	2	2
int	整型数据	4	4
long	长整型数据	4	8
long long	长长整型	8	8
float	单精度浮点型	4	4
double	双精度浮点型	8	8

构造类型

C语言中的构造类型主要包括数组类型，结构类型、枚举类型和联合类型。其中，结构类型的定义需要使用到关键字struct、枚举类型要是用关键字enum、联合类型使用关键字union。

指针类型

指针类型主要有int* 、char*、float*、void*等，指针类型我们可以理解为基本数据类型加上*就是指针类型。

空类型

void表示空类型，void类型可以用于函数的返回值类型、参数类型和指针类型。

二、整形在内存中的存储：原码、反码、补码

创建每一种数据类型的变量都需要在内存中进行存储，不同的数据类型的变量在内存中的空间的大小是不相同的。例如：整型变量在内存中存储时占用的空间大小为4个字节。那么，int类型数据的四个字节的空间是如何在内存中存储的呢？首先，我们来了解一下概念：

1.原码、反码、补码

在计算机中有符号数的表示方法有三种，即：原码、补码、反码。三种表示方法可以分成符号位和数值位两部分，符号位中用0表示正、1表示负，而数三种表示方法的数值位的表示各不相同。

原码：正负数的二进制形式就是该数的原码，例如：10011B（19D）的原码为：10011.

反码：将原码的数值位按位取反，符号位不变。例如：10011B的反码为：11100.

补码：反码+1。例如：10011B的反码为：11101，其中11101就是11100加一的结果。

正数的原码、反码、补码均相同！！！

注：在二进制数的结尾加上B表示该数是一个二进制数，在十进制数的结尾加上D表示该数是一个十进制数。

2.整型在内存中的存储

整型数据在内存中都以补码的形式存储（只是正数的补码和原码相同）。而整型数据在内存中以补码的形式存储原因在于，使用补码，可以将符号位和数值域统一处理；同时，加法和减法也可以统一处理.（CPU只有加法器）此外，补码与原码相互转换，其运算过程是相同的，不需要额外的硬件电路。换句话说，整型数据在内存中以补码的形式存储是为了方便计算、简化硬件电路。

数据在内存中的存储图：

注意，为了显示方便，编译器将二进制转化成十六进制进行显示。对于整型a来说，在内存中存储的16进制表示为00 00 00 0f转化为二进制为：00000000 00000000 00000000 00001110，而十进制15的反码表示成二进制也是如此。对于整型b来说，转换成二进制为：11111111 11111111 11111111 11110001，-15的原码为：10000000 00000000 00000000 00001111，反码为11111111 11111111 11111111 11110000，补码为：11111111 11111111 11111111 11110001.由此，我们就可以证明整型数据在计算机中确实是以二进制数的形式存储的。

仔细观察，可以发现，在将内存中的存储形式的十六进制转化成2进制时，我们是从右往左开始转化的，这又是为什么呢？

这就是大小端字节序问题了！

练习题：

#include<stdio.h>
 
int main()
{
    char a = -1;
    //-1二进制表示为：10000001
    //补码：11111111
    //整形提升：11111111 11111111 11111111 11111111
    //转化为原码：10000000 00000000 00000000 00000001
    //十进制表示为-1
    signed char b = -1;
    //与char a = -1相同
    unsigned char c = -1;
    //二进制表示为：10000001
    //补码：11111111
    //无符号数整形提升在前面补0
    //整形提升：00000000 00000000 00000000 11111111
    //原码补码反码相同，故输出十进制为255
    printf("a=%d,b=%d,c=%d",a,b,c);//-1  -1  255
    return 0;

三、大小端字节序介绍及判断

1.什么是大小端？

大端存储模式：数据的低位存储在内存的高地址，数据的高位存储在内存的低地址。

小端存储模式：数据的低位存储在内存的低地址，数据的高位存储在内存的高地址。

一图展示大小端问题：

2.为什么会有大端和小端存储？

为什么会有大小端模式之分呢？这是因为在计算机系统中，我们是以字节为单位的，每个地址单元都对应着一个字节，一个字节为8bit。但是在C语言中除了8bit的char之外，还有16bit的short型，32bit的long型（要看具体的编译器），另外，对于位数大于8位的处理器，例如16位或者32位的处理器，由于寄存器宽度大于一个字节，那么必然存在着一个如果将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。例如一个 16bit 的 short 型 x ，在内存中的地址为 0x0010 ， x 的值为 0x1122 ，那么 0x11 为高字节， 0x22 为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x0010 中， 0x22 放在高地址中，即 0x0011 中。小端模式，刚好相反。我们常用的 X86 结构是小端模式，而 KEIL C51 则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

3.一个程序判断自己的计算机是大端机还是小端机（百度2015年系统工程师笔试题）

请简述大端字节序和小端字节序的概念，设计一个小程序来判断当前机器的字节序

int main()
{
	/*int a = 15;
	int b = -15;*/
	int a = 1;
	//00000000 00000000 00000000 00000001
	//将int型数据转换char类型时，计算机会自动取int型的低字节作为char类型的结果。
	if ((char)a == 1)
		printf("小端机\n");
	else
		printf("大端机\n");
	return 0;
}

四、浮点型在内存中的存储解析

浮点数在内存中的存储跟整形的存储有很大的区别，根据国际标准IEEE（电气和电子工程协会） 754，任意一个二进制浮点数V可以表示成下面的形式：

(-1)^S * M * 2^E
(-1)^s表示符号位，当s=0，表示正数；当s=1，表示负数。
M表示有效数字，大于等于1，小于2。
2^E表示指数位

例如：十进制的5.0表示成二进制为：101.0；相当于(-1)^0*1.01*2^2。根据上面的格式可以得出，S为0，M为1.01，E为2.

IEEE 754规定，对于32位的浮点数最高的1位是符号位，接着的8位是指数位1，后面的23位位有效数字M。对于64位的浮点数最高的1位是符号位，接着的11位是指数位，剩下的52位为有效数字M。

IEEE 754对有效数字M和指数E，还有一些特别规定。前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中xxxxxx表示小数部分。 IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位。将第一位的1舍去以后，等于可以保存24位有效数字。

至于指数E，情况就比较复杂。

首先，E为一个无符号整数（unsigned int）

这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存入内存时E的真实值必须再加上一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。比如，2^10的E 是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。然后，指数E从内存中取出还可以再分成三种情况：

E不全为0或不全为1

这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1。比如： 0.5（1/2）的二进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1)，其阶码为-1+127=126，表示为01111110，而尾数1.0去掉整数部分为0，补齐0到23位 00000000000000000000000，则其二进制表示形式为: 0 01111110 00000000000000000000000

E全为0

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第一位的1，而是还原为 0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。

E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；

例题及解析

题目：

运行结果

解析：

为什么0x00000009还原成浮点数就成了0.000000 ?首先，将0x00000009拆分，得到第一位符号位s=0，后面8位的指数E=00000000，最后23位的有效数字M=0000 0000 0000 0000 00001001。

9 -> 0000 0000 0000 0000 0000 0000 0000 1001

由于指数E全为0，所以符合上一节的第二种情况。因此，浮点数V就写成:V=(-1)^0 × 0.00000000000000000001001=(-1)^0*1.001*2^(-146)=1.001x2N(-146)显然，V是一个很小的接近于0的正数，所以用十进制小数表示就是0.000000.

再看例题的第二部分。请问浮点数9.0，如何用二进制表示?还原成十进制又是多少﹖首先，浮点数9.0等于二进制的1001.0,即1.001×2^3。

9.0 -> 1001.0 ->(-1)^01.0012^3 -> s=0，M=1.001,E=3+127=130

那么，第一位的符号位s=0，有效数字M等于O01后面再加20个0，凑满23位，指数E等于3+127=130，即10000010。所以，写成二进制形式，应该是s+E+M，即0 10000010 001 0000 0000 0000 0000 0000这个32位的二进制数，还原成十进制，正是1091567616。