（C语言进阶）数据的存储

南橘Q

已于 2023-04-16 11:31:46 修改

阅读量53

点赞数 1

文章标签： c语言算法 Powered by 金山文档

于 2023-03-28 23:37:19 首次发布

本文链接：https://blog.csdn.net/qhnaijuzi/article/details/129781806

版权

本章重点：

1. 数据类型详细介绍

2. 整形在内存中的存储：原码、反码、补码

3. 大小端字节序介绍及判断

4. 浮点型在内存中的存储解析

1. 数据类型介绍

之前我们学习过基本的内置类型和他们所占存储空间的大小：

char //字符数据类型 1字节（8比特位） short //短整型 2 int //整形 4 long //长整型 4 /8 long long //更长的整形 8 float //单精度浮点数 4 double //双精度浮点数 8

类型的意义：

使用这个类型开辟内存空间的大小(大小决定了使用范围)

如何看待内存空间的视角。(如定义的double类型放入int型也看作为double)

1.1类型的基本归类

注：字符存储和表示的时候本质上使用的是ASCII值，ASCII值是整数，字符类型也归类到整形家族。

整形家族

char unsigned char signed char short unsigned short [int] signed short [int] int unsigned int signed int long unsigned long [int] signed long [int]

然而有些数据是只有正数的，比如身高、体重、年龄、年份，如果表示定义年份的数据可以写成："unsigned int age"；而有些数据是有正负的，比如温度，所以可以写成“signed int n”。同时我们平常写的int和signed int是等价的一般忽略不写（int = [unsigned] int）。

再比如，signed short和short等价（[unsigned] short=short）,而且short int和short等价(short [int]),所以，你定义short int num，也可以定义short num。unsigned short [int]

short和int都是signed+（）=（），那么char也是一样的吗？

不是的，char是不是unsigned char取决于编译器。但是一般编译器都是相等的。char细分有char、unsigned char、signed char。

浮点数家族

float
double

构造类型

> 数组类型 > 结构体类型 struct > 枚举类型 enum > 联合类型 union

指针类型

int *pi; char *pc; float* pf; void* pv;

空类型

void 表示空类型（无类型）通常应用于函数的返回类型、函数的参数、指针类型

例：

void test(){}//函数不需要返回值

void test(void)//函数不需要参数

void* p//无具体类型的指针

2.整形在内存的存储

我们之前讲过一个变量的创建是要在内存中开辟空间的。空间的大小是根据不同的类型而决定的

那么数据在所开辟内存中到底是如何存储的？

2.1原码、反码、补码

计算机中的整数有三种2进制表示方法，即原码、反码和补码。三种表示方法均有符号位和数值位两部分，符号位都是用0表示“正”，用1表示“负”。

而数值位为正数的，正数的原、反、补码都相同。而负整数的三种表示方法各不相同。负数的原码直接将数值按照正负数的形式翻译成二进制就可以得到原码；负数的反码将原码的符号位不变，其他位依次按位取反就可以得到反码。负数的补码将反码+1就得到补码。

对于整形来说：数据存放内存中其实存放的是补码。

在计算机系统中，数值一律用补码来表示和存储。原因在于，使用补码，可以将符号位和数值域统一处理；同时，加法和减法也可以统一处理（CPU只有加法器）此外，补码与原码相互转换，其运算过程是相同的，不需要额外的硬件电路。

2.2大小端介绍

大端字节存储：把一个数据的低位字节的数据，存放在高地址处；把高位字节的数据，存放在低地址处。

小端字节存储：把一个数据的低位字节的数据，存放在低地址处；把高位字节的数据，存放在高地址处。

为什么会有大小端模式之分呢？这是因为在计算机系统中，我们是以字节为单位的，每个地址单元都对应着一个字节，一个字节为8 bit。但是在C语言中除了8 bit的char之外，还有16 bit的short 型，32 bit的long型（要看具体的编译器），另外，对于位数大于8位的处理器，例如16位或者32 位的处理器，由于寄存器宽度大于一个字节，那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。例如：一个 16bit 的 short 型 x ，在内存中的地址为 0x0010 ， x 的值为 0x1122 ，那么 0x11 为高字节， 0x22 为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x0010 中， 0x22 放在高地址中，即 0x0011 中。小端模式，刚好相反。我们常用的 X86 结构是小端模式，而 KEIL C51 则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

写一个函数判断是大端字节存储还是小端字节存储

非函数写法

#include<stdio.h>
int main()
{
    int a = 1;
    char* p = (char*)&a;
    if (*p == 1)
    {
        printf("小端\n");
    }
    else
    {
        printf("大端\n");
    }
    return 0;
}

函数写法

//方案1
int check_sys()
{
    int a = 1;
    char* p = (char*)&a;
    if (*p == 1)
        return 1;
    else
        return 0;

}
int main()
{
    if (check_sys() == 1)
    {
        printf("小端\n");
    }
    else
    {
        printf("大端\n");
    }
}

//方案2及类同
#include<stdio.h>
int check_sys()
{
    int a = 1;
    return (*(char*)&a);
}
int main()
{
    if (check_sys() == 1)
    {
        printf("小端\n");
    }
    else
    {
        printf("大端\n");
    }
}

//或者函数改成这样
int check_sys()
{
    int a = 1;
    if (*(char*)&a)
        return 1;
    else
        return 0;
}

2.3练习

例题1：

//1、输出什么？
#include <stdio.h>
int main()
{
    char a= -1;
    signed char b=-1;
    unsigned char c=-1;
    printf("a=%d,b=%d,c=%d",a,b,c);
    return 0;
}

解析：

有符号的char

char是一个字节，则有8个bite位，也就是存在8位在计算机存储。-128的原码是110000000，反码为101111111补码为110000000.但是在char只能容纳8位，所以存储故为10000000.

同时有符号的char的取值范围为-128~127.所以char a=200是存不了的。

对于无符号的char来说，无符号的char取值范围是0~255即0~2^8-1.

再比如：short有两个字节，所以有-2^15~2^15-1。unsigned short的取值范围为： 0~2^16。

例题2：

#include<stdio.h>
int main()
{
    unsigned int num = -10;
    printf("%d\n", num);
    return 0;
}

原因是：

%d ——打印有符号的数，结果是十进制的。

%u——打印无符号的数，结果也是十进制的。

不论如何，数据存入内存的二进制没有变化，而%u和%d的打印格式的差异，造成了对数据不同的解读方式，也就是打印了不同的结果。

例题3：

#include<stdio.h>
int main()
{
    unsigned int num = -10;
    printf("%d\n", num);
    printf("%u\n", num);
    return 0;
}

原因是：

%d ——打印有符号的数，结果是十进制的。另一个把他当成无符号数了，那么原码补码都相同，故打印的二进制是11111111111111111111111111110110=4294967286。

例题4：

#include <stdio.h>
int main()
{
    char a = 128;
    printf("%u\n", a);
    return 0;
}

10000000000000000000000010000000（原码）

11111111111111111111111101111111（反码）

11111111111111111111111110000000（补码）

10000000-a 截取

11111111111111111111111110000000-整形提升

%u又是无符号数，那么原码=反码=补码

故输出的是整形提升后补码的十进制结果。故整形提升的二进制结果为4294967168

例题5：

int i= -20;
unsigned  int  j = 10;
printf("%d\n", i+j);
//按照补码的形式进行运算，最后格式化成为有符号整数

1000000 00000000 00000000 00010100

1111111 11111111 11111111 11101011

1111111 11111111 11111111 11101100 i的补码

0000000 00000000 00000000 00010110 j的补码

1111111 11111111 11111111 11110110（i+j，存在计算机的结果，同时也是补码）

1111111 11111111 11111111 11110101

1000000 00000000 00000000 00001010 = -10

故打印-10。

提示：计算i+j的时候，i的类型会临时转变成unsigned int，再和j进行计算。但是i=-20可以在unsigned里面完全可以存储。虽然即使i类型转换，但是i还是int类型的，i里面的数值没有发生改变。所以，类型的种类不是特别重要，重要的是类型的种类使得存储的值发生了改变，会导致二进制位有区别，导致值的差异。

例题6.1

unsigned int i;
for(i = 9; i >= 0; i--)
{
    printf("%u\n",i);
}

结果为：

是死循环。

原因是：

i=9~0时，是在unsigned int的范围内的，正常输出；之后i开始小于0，i=-1时，

10000000 00000000 00000000 00000001 (i的原码）

11111111 11111111 11111111 11111110 (i的反码)

11111111 11111111 11111111 11111111 (i的补码）

而unsigned int是无符号数，直接把i的补码当成无符号数的二进制进行打印输出（第一位符号位当成一个数字位）从而得到了4294967295，所以每当i为"负数"时，但是i定义的类型是unsigned int，使得认为i不是"负数"（无符号数），故死循环。

我们再将打印格式修改成%d来进行尝试打印一次。

#include <stdio.h>
#include <windows.h>
int main()
{
    unsigned int i;
    for (i = 9; i >= 0; i--)
    {
        printf("%d\n", i);
        Sleep(1000);//延迟打印时间
    }
}

这里也是说明unsigned int的定义类型，把i变成了一个无符号的类型，打印出-1，-2，-3,....（与刚刚的4294967295 4294967294 4294967293 ......）只是对数据的解读方式不同，但是还是默认为无符号数，故为死循环。

例题7

int main()
{
    char a[1000];
    int i;
    for(i=0; i<1000; i++)
   {
        a[i] = -1-i;
   }
    printf("%d",strlen(a));
    return 0;
}

由于char的范围是-128~127，所以当i在0-127之间时，不会溢出正常输出值，当i>=128或者i<=-129后，超出了char的范围，而溢出的范围会进行再次轮回，如下图。

-1 -2 -3 ...... -127 -128 -129 -130.... -998 -999 -1000

-1-2 -3 ....... -127 -128 127 126....3 2 1 0 -1 -2 -3... -128 127

所以我们推断a[i]的值从-1,-2，-3,.....-128再到127，126,125....2,1,0,-1，-2，-3...-126,-127,-128,127...2,1,0....(也可以截断)

但是strlen求字符串长度，找的是'\0',而‘\0’的ASCII是0，所以在0的地方就停止了，故结果为：

例题8

#include <stdio.h>
unsigned char i = 0;
int main()
{
    for(i = 0;i<=255;i++)
   {
        printf("hello world\n");
   }
    return 0;
}

结果如下图：

unsigned char的范围是0-255，当i=256时，i=256=1 0000 0000，再截断 0000 0000，所以i=256=0。怎么样都是在范围内，因此还是死循环。

注：对于整形和浮点数家族的取值范围可以把limits.h或者float.h拖入编译器进行查看。

3.浮点数在内存中的存储

常见的浮点数：

3.14159
1E10
浮点数家族包括：float、double、long double类型
浮点数表示的范围：float.h中定义

注：整型家族的类型的取值范围：limits.h；浮点数家族类型的取值范围：float.h

3.1一个例子

int main()
{
 int n = 9;
 float *pFloat = (float *)&n;
 printf("n的值为：%d\n",n);
 printf("*pFloat的值为：%f\n",*pFloat);
 *pFloat = 9.0;
 printf("num的值为：%d\n",n);
 printf("*pFloat的值为：%f\n",*pFloat);
 return 0;
}

结果为：

3.2浮点数的存储规则

根据上文，我们可以发现浮点数和整数的存储方式是不一样的。

根据国际标准IEEE（电气和电子工程协会） 754，任意一个二进制浮点数V可以表示成下面的形式：

(-1)^S * M * 2^E

(-1)^S表示符号位，当S=0，V为正数；当S=1，V为负数。
M表示有效数字，大于等于1，小于2。
2^E表示指数位。

举例来说：十进制的5.5，写成二进制是 101.1 ，相当于 1.011×2^2 。V=(-1)^0*1.011*2^2 那么，按照上面V的格式，可以得出S=0，M=1.01，E=2。十进制的-5.0，写成二进制是 -101.0 ，相当于 -1.01×2^2 。那么，S=1，M=1.01，E=2。

IEEE 754规定：

对于32位的浮点数，最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M。

对于64位的浮点数，最高的1位是符号位S，接着的11位是指数E，剩下的52位为有效数字M。

注：不是所以浮点数都可以在内存中精确保存，比如5.3其中0.3没办法直接凑出来，同时导致在存储中M可能有很多位。

IEEE 754对有效数字M和指数E，还有一些特别规定。前面说过， 1≤M≤2，因此M也就是可以写成1.xxxxx的形式，其中xxxxx表示小数部分。

IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的 xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字。

注意：有些浮点数不是一定在内存中可以精确保存的，还是存在误差的。例如5.3，这种没有办法直接算出来只能往后延伸位数的数字。

至于指数E，情况就比较复杂。首先，E为一个无符号整数（unsigned int）

这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存入内存时E的真实值必须再加上一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。

比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即 10001001。例如： float f =5.5f；5.5转化为十进制是101.1，在内存存储为：(-1)^0*1.011*2^2，同时E=2保存成32位浮点数时，变成2+127=129即10000001，故为0 10000001 01100000000000000000000,与之对应的16进制表示形式为：40b00000

然后，指数E从内存中取出还可以再分成三种情况 : E不全为0或不全为1

这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1。

E全为0

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。

E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；

因此前面这个例子：

int main()
{
 int n = 9;
 float *pFloat = (float *)&n;
 printf("n的值为：%d\n",n);
 printf("*pFloat的值为：%f\n",*pFloat);

 *pFloat = 9.0;
 printf("num的值为：%d\n",n);
 printf("*pFloat的值为：%f\n",*pFloat);
 return 0;
}

9的补码：00000000000000000000000000001001

对于%d的形式，按正常整形打印输出，所以为9；

把整型以浮点型的视角进行存储，因此把数据解读成：0 00000000 00000000000000000001001

所以E=1-127=-126，M=0.00000000000000000001001，所以可以表示为：(-1)^0*0.00000000000000000001001*2^(-126)，这是一个接近0的数字非常小。

*pFloat = 9.0;以浮点数的视角，存放浮点型的数字1001.0=(-1)^0*1.001*2^3

即S=0,E=3,M=1.001,3+127=130,10000010

故为：0 100000010 0010000000000000000000

而这个二进制序列以整形直接解读，所以%d的打印结果为：1，091，567，616(1091567616)

而对于%f浮点数的形式，按正常浮点数输出，故为9.000000

以下为输出结果：