深度剖析数据在内存中的存储

专科在努力！

已于 2024-04-26 18:35:08 修改

阅读量161

点赞数 4

分类专栏：初级C语言知识点文章标签： c语言开发语言

于 2022-05-26 08:00:00 首次发布

本文链接：https://blog.csdn.net/sgbscx/article/details/124909558

版权

初级C语言知识点专栏收录该内容

13 篇文章 0 订阅

订阅专栏

在这里插入图片描述
希望你看完我的文章会收获满满

在这里插入图片描述

1. 数据类型详细介绍

char //字符数据类型
short //短整型
int //整形
long //长整型
long long //更长的整形
float //单精度浮点数
double //双精度浮点数

类型的意义：

使用这个类型开辟内存空间的大小（大小决定了使用范围）。
如何看待内存空间的视角

1.1 类型的基本归类

整形家族：

char
unsigned char
signed char
short
unsigned short [int]
signed short [int]
int
unsigned int
signed int
long
unsigned long [int]
signed long [int]

所有的整型家族都被分为有符号整型和无符号整型，并且signed都是可以被省略的，换言之，signed int完全等价于int，其他以此类推。但是char类型和signed char并不等价，它不确定有符号字符型还是无符号字符型，他的字符号类型完全取决于编译器，大部分编译器下char类型都被编译器翻译为有符号的char类型。

浮点数家族：

float
double

浮点型家族只有float和double这两种类型，float类型所占空间大小为4byte，double类型所占空间大小为8byte。

构造类型：

数组类型
结构体类型 struct
枚举类型 enum
联合类型 union

我们知道数组类型的变量定义形式：数据类型+数组名+[数组大小]；
因为数组的元素个数是由我们自己创建的，所以我们把它理解成自定义类型

指针类型

int* pi;
char* pc;
float* pf;
void* pv;

空类型：

void 表示空类型（无类型）
通常应用于函数的返回类型、函数的参数、指针类型。

2. 整形在内存中的存储：原码、反码、补码

2.1 原码、反码、补码

计算机中的整数有三种表示方法，即原码、反码和补码。
三种表示方法均有符号位和数值位两部分，符号位都是用0表示“正”，用1表示“负”，而数值位
负整数的三种表示方法各不相同。
原码
直接将二进制按照正负数的形式翻译成二进制就可以。
反码
将原码的符号位不变，其他位依次按位取反就可以得到了。
补码
反码+1就得到补码。
正数的原码反码补码相同
对于整形来说：数据存放内存中其实存放的是补码。

例如：

int main()
{
    int a = 10;
    //原码：00000000 00000000 00000000 00001010
	//反码：00000000 00000000 00000000 00001010
	//补码：00000000 00000000 00000000 00001010
 
    int b = -10;
     //原码：10000000 00000000 00000000 00001010
	//反码：11111111 11111111 11111111 11110101
	//补码：11111111 11111111 11111111 11110110
}

编译器下调试 - 内存 - &a：
在这里插入图片描述
内存中存储的是：01 00 00 00

00001010转换为十六进制就是01。

编译器下调试 - 内存 - &b：
在这里插入图片描述
内存中存储的是：f6 ff ff ff

1111 1111转换为十六进制就是ff，1111 0110转换为十六进制就是f6。

如此说来，在内存中真的存放的就是补码，所以为了弄清楚整型数据在内存中的存储，必须牢牢掌握原反补的概念。

我们可以看到对于a和b分别存储的是补码。但是我们发现顺序有点不对劲。
这是又为什么？

2.2 大小端介绍

什么大端小端：
大端（存储）模式，是指数据的低位保存在内存的高地址中，而数据的高位，保存在内存的低地址中；
小端（存储）模式，是指数据的低位保存在内存的低地址中，而数据的高位,，保存在内存的高地址中。
为什么有大端和小端：
为什么会有大小端模式之分呢？这是因为在计算机系统中，我们是以字节为单位的，每个地址单元都对应着一个字节，一个字节为8bit。但是在C语言中除了8 bit的char之外，还有16 bit的short型，32 bit的long型（要看具体的编译器），另外，对于位数大于8位的处理器，例如16位或者32位的处理器，由于寄存器宽度大于一个字节，那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。
例如：一个 16bit 的 short 型 x ，在内存中的地址为 0x0010 ， x 的值为 0x1122 ，那么 0x11 为
高字节， 0x22 为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x0010 中， 0x22 放在高地址中，即 0x0011 中。小端模式，刚好相反。我们常用的 X86 结构是小端模式

百度2015年系统工程师笔试题：

请简述大端字节序和小端字节序的概念，设计一个小程序来判断当前机器的字节序。（10分）

#include <stdio.h>
int check_sys()
{
    int i = 1;
    return (*(char *)&i);
}
int main()
{
    int ret = check_sys();
    if(ret == 1)
    {
         printf("小端\n");
    }
    else
    {
         printf("大端\n");
    }
 return 0; }

如果是在大端存储模式下：
存储方式为：00 00 00 01

如果是在小端存储模式下：
存储方式为：01 00 00 00

所以我们只需要得到第一个字符就可以了（前八个bit位），想要得到前八个比特位我们只需要用char* 指向&i 就可以了

2.3截断与整型提升

首先一个数是以二进制的32位存入内存中

例如：
1在内存中的存放是
00000000 00000000 00000000 00000001
如果他要用char类型的接收那么就会发生截断

int main()
{
    char a=1;
    //截断后在内存中的存放是
    //0000 0001
}

这里我们可以看出截断的意思就是，保留最低位上的8个位

如果它要以整形的形式打印那么又会整形提升
整型提升规则：
如果对无符号数进行整型提升，则在前面补24位0。
如果对有符号数进行整型提升，则判断该数在当前的二进制0/1序列的首元素，相当于符号位。

如果是0，则全补0
如果是1，则全补1

例如：

int main()
{
    //-1在内存中的存放
    //原码10000000 00000000 00000000 00000001
    //反码11111111 11111111 11111111 11111110
    //补码11111111 11111111 11111111 11111111
    char a=-1;
    //截断后在内存中的存放是
    //1111 1111
    printf("%d",a);
    //如果以整形的形式打印又会怎么样呢
}

答案还是 -1
在这里插入图片描述
看到这里你应该对整型提升与截断有所了解了
快试试下面的题你会不会做吧！

2.4 练习（重点）

这里的题先自己算一下再看解析

1.第一题


//输出什么？
#include <stdio.h>
int main()
{
    char a= -1;
    signed char b=-1;
    unsigned char c=-1;
    printf("a=%d,b=%d,c=%d",a,b,c);
    return 0;
}

在这里插入图片描述

解析

因为我使用的编译器是VS2019所以char等价于signed char
所以a，b整型提升之后打印出来的值都为-1
对于无符号char的数整型提升是在前面补24个0

int main()
{
    //-1在内存中的存放
    //原码10000000 00000000 00000000 00000001
    //反码11111111 11111111 11111111 11111110
    //补码11111111 11111111 11111111 11111111
    //截断后
    char a= -1;
    //1111 1111
    signed char b=-1;
    //1111 1111
    unsigned char c=-1;
    //1111 1111
    //提升为整形之后的补码
    //char
    //11111111 11111111 11111111 11111111
    //signed char
    //11111111 11111111 11111111 11111111
    //unsigned char
    //00000000 00000000 00000000 11111111
    printf("a=%d b=%d c=%d\n", a, b, c);
    return 0;
}

2.第二题

#include <stdio.h>
int main()
{
    char a = -128;
    printf("%u\n",a);
    return 0; 
}

在这里插入图片描述

解析

我们先来看看char类型的a在内存中的存放

#include <stdio.h>
int main()
{
    //-128的原、反、补
    //原码10000000 00000000 00000000 10000000
    //反码11111111 11111111 11111111 01111111
    //补码11111111 11111111 11111111 10000000
    
    char a = -128;
    //10000000

    printf("%u\n",a);
    return 0;
}

因为a的类型是有符号char所以整形提升后是
11111111 11111111 11111111 10000000
又是以无符号的类型打印（无符号类型不看正负，直接用二进制的补码翻译）所以输出的是一个非常大的数

3.第三题

#include <stdio.h>

#include <stdio.h>
int main()
{
    char a = 128;
    printf("%u\n",a);
    return 0;
}

在这里插入图片描述

解析

这道题其实和上一道题很相似

#include <stdio.h>
int main()
{
    //128的原、反、补都相同因为它是正数
    //原码00000000 00000000 00000000 10000000
    
    char a = 128;
    //截断后在内存的存储为
    //10000000
   
    //打印时又要整型提升，整形提升后，结果为
    //11111111 11111111 11111111 10000000
    //又是以%u无符号整形的形式打印，所以直接读代码
    //最终打印的值相当于（2的32次方+2的31次方……+2的8次方）

    printf("%u\n",a);
    return 0;
}

4.第四题

#include <stdio.h>
int main()
{
    int i= -20;
    unsigned  int  j = 10;
    printf("%d\n", i+j); 
    //按照补码的形式进行运算，最后格式化成为有符号整数
    return 0;
}

在这里插入图片描述

解析

#include <stdio.h>
int main()
{
    //-20在内存中的存放
    //原码10000000 00000000 00000000 00010100
    //反码11111111 11111111 11111111 11101011
    //补码11111111 11111111 11111111 11101100

    int i= -20;
    //11111111 11111111 11111111 11101100
    
    unsigned  int  j = 10;
    //00000000 00000000 00000000 00001010


    //i+j
    //i=   11111111 11111111 11111111 11101100
    //j=   00000000 00000000 00000000 00001010
    //i+j= 11111111 11111111 11111111 11110110
    //现在内存中存的是补码，我们把它转换成原码看看他转换之后的结果是不是-10
    //i+j的反码 11111111 11111111 11111111 11110101
    //i+j的补码 10000000 00000000 00000000 00001010 == -10
    //因为是以%d的形式打印，所以我们要转换成原码来读他的值
    printf("%d\n", i+j); 
    //按照补码的形式进行运算，最后格式化成为有符号整数
    return 0;
}

上面的代码可以证明打印出来的结果为什么是-10

5.第五题

#include <stdio.h>
int main()
{
    unsigned int i;
    for(i = 9; i >= 0; i--)
    {
        printf("%u\n",i);
    }
    return 0;
}

代码执行起来如下图，这又是为什么呢？
在这里插入图片描述

解析

因为 i 是一个无符号的整形，当 i 减到0时，内存中存放为
00000000 00000000 00000000 00000000
这里我们看到的只是 i 在内存中的二进制存储，在 i 之前还会有二进制位，所以当 i=0 时再减一的值为
11111111 11111111 11111111 11111111
又因为 i 是无符号的整形，所以再次进入循环，所以410打印出来的就是上面的结果图

6.第六题

#include <stdio.h>
int main()
{
    char a[1000];
    int i;
    for(i=0; i<1000; i++)
   {
        a[i] = -1-i;
   }
    printf("%d",strlen(a));
    return 0;
}

这里给大家个提醒strlen计算字符串的长度，结束标志位 ‘ \0’，不计算 ‘ \0’ 的长度
在这里插入图片描述
这个题你答对了吗？

解析

数组中元素的存放是这样的：
在这里插入图片描述
这里大家一定会有个疑问问什么 -128-1会是127呢，因为这个数组是char类型的，有符号char的取值范围是 -128 — 127
那么它又是怎么转换的呢？
其实内存中是用（-128） + （-1）
char类型 -128 在内存中的补码为 10000000
char类型 -1 在内存中的补码为 11111111
所以（-128） + （-1）= 127 （补码为：01111111）
char类型的补码其实是以从-1，-2，…，-127，-128，127，126，…，2，1这样的方式连续的。

画成图的形式为：

其实这又是一个无限循环的存放，一直存放满1000个数据为止。

而打印的是字符串长度，使用的是strlen函数，strlen函数遇到\0就停止计算，所以计算的结果应该为128 + 127 = 255。

7.第七题

#include <stdio.h>
unsigned char i = 0;
int main()
{
    for(i = 0;i<=255;i++)
   {
        printf("hello world\n");
   }
    return 0; 
}

在这里插入图片描述

解析

首先定义了一个全局变量：无符号整型i。

无符号的char类型范围是0~255，所以代码前面会打印255个"hello world\n"，这一点肯定没错。

当i=255时在内存中的存放为

00000000 00000000 00000000 11111111

但是当再次加一，变成了

00000000 00000000 00000001 00000000

因为 i 是char类型所以要进行截断，阶段后的值为0

00000000

0符合循环条件，所以循环又开始了，所以这段代码会死循环

3. 浮点型在内存中的存储

常见的浮点数：
3.14159
1E10
浮点数家族包括： float、double、long double 类型。
浮点数表示的范围：float.h中定义

3.1 一个例子

浮点数存储的例子：

int main()
{
    int n = 9;
    float *pFloat = (float *)&n;
    printf("n的值为：%d\n",n);
    printf("*pFloat的值为：%f\n",*pFloat);
    *pFloat = 9.0;
    printf("num的值为：%d\n",n);
    printf("*pFloat的值为：%f\n",*pFloat);
    return 0; 
}

输出的结果是什么呢？
在这里插入图片描述
对于这道题你又答对几问呢？浮点型在内存中的存储与整形又有什么区别呢？

3.2 浮点数存储规则

详细解读：
根据国际标准IEEE（电气和电子工程协会） 754，任意一个二进制浮点数V可以表示成下面的形式：

(-1)^S * M * 2^E
(-1)^s表示符号位，当s=0，V为正数；当s=1，V为负数。
M表示有效数字，大于等于1，小于2。
2^E表示指数位。

举例来说：
十进制的5.5，写成二进制是 101.1 ，相当于 1.011×2^2 。
那么，按照上面的格式，可以得出s=0，M=1.011，E=2。
十进制的-5.0，写成二进制是 -101.0 ，相当于 -1.01×2^2 。
那么，s=1，M=1.01，E=2。

IEEE 754规定：

1.对于32位的浮点数，最高的1位是符号位S，接着的8位是指数E，剩下的23位为有效数字M。
2.对于64位的浮点数，最高的1位是符号位S，接着的11位是指数E，剩下的52位为有效数字M。

这里我们用画的图来加深理解
在这里插入图片描述

IEEE 754对有效数字M和指数E，还有一些特别规定
对于M（有效数字）的规定：

前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中xxxxxx表示小数部分。
IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字。

至于指数E，情况就比较复杂。

首先，E为一个无符号整数（unsigned int）
这意味着，如果E为8位，它的取值范围为0~~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存入内存时E的真实必须再加上一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。
比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

然后，指数E从内存中取出还可以再分成三种情况：
E不全为0或不全为1

这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真值，再将有效数字M前加上第一位的1。
比如：
0.5（1/2）的二进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1)，其阶码为-1+127=126，表示为
01111110，而尾数1.0去掉整数部分为0，补齐0到23位00000000000000000000000，则其二进制表示形式为
0 01111110 00000000000000000000000

E全为0

当E为全0时，说明以IEEE标准形式写出的式子的指数部分是-127或者-1023，也就是说符号位和有效位要乘以1.0 / 2^127或者乘以1.0 / 2^1023的数，而这个数非常小，近乎为0，所以在内存中取出该数时通过一些办法直接将其翻译为0。

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，
有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于
0的很小的数字。

E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；
原因是，如果E全为1，则指数位计算的是128,2128次方是一个非常大的数字，所以这里我们可以认为他是正负无穷大。

好了，关于浮点数的表示规则，就说到这里。
解释前面的题目：
下面，让我们回到一开始的问题：为什么 0x00000009 还原成浮点数，就成了 0.000000 ？
首先，将 0x00000009 拆分，得到第一位符号位s=0，后面8位的指数 E=00000000 ，最后23位的有效数字M=000 0000 0000 0000 0000 1001。