C语言数据的存储

最新推荐文章于 2023-11-15 10:40:30 发布

努力学习的小王i

最新推荐文章于 2023-11-15 10:40:30 发布

阅读量1.1k

点赞数 1

文章标签： c语言开发语言

本文链接：https://blog.csdn.net/Nekros_w/article/details/123334638

版权

本文深入探讨C语言中数据类型的存储，包括整形的原码、反码、补码表示，大小端字节序以及浮点数的IEEE 754标准。内容涵盖有符号与无符号整形、浮点数的内存布局以及数据范围。同时介绍了数组、结构体、枚举和联合等构造类型，以及指针和空类型。文章适合希望深化理解C语言底层机制的读者。

摘要由CSDN通过智能技术生成

前言

这篇文章主要是给大家讲解C语言当中数据的存储，同时也作为我自己的复习与总结。
数据的存储对于学习与理解计算机和编程语言是非常重要的，在学习过程中不能只会刷题，要全面发展。

一.数据类型

大家在C语言当中常见常用的数据类型有：

1. char
2. short (int)
3. int
4. long (int)
5. long long (int)
6. float
7. double

但是数据类型不代表只有这几个，并且也没有大家在平时使用时认为的那么简单，接下来我就会为大家具体讲解，有什么不足或错误之处还请各位斧正。

整形

1. char
2. short (int)
3. int
4. long (int)
5. long long (int)

最值得注意的是char并不是什么单独的字符类型
char仍然是整形，虽然在平时中我们使用char存放的是字符，但是在当中字符是以Ascii码存储的，而并不是字符，所以char算作整形。

以上数据类型还分为有符号与无符号

//绝大部分类型默认为signed
1. char
   signed char , unsigned char
2. int 
   signed int , unsigned int
   ……以此类推

那有符号与无符号的区别在哪呢？
即数据存储的二进制的最高位的意义不一样，总所周知数据在计算机中存储的形式是二进制。
有符号数二进制分为最高位的符号位，与余下的数据位。
符号位是1就代表该数为负数，符号位为0就代表该数是正数

char， short， int，long， long long
char虽然是字符，但是是以ASCII码存的
以上数据类型都分为unsighed ~ 和 signed ~，默认是signed ~（char默认不清楚，看编译器，但是大部分是signed char）
即二进制最高位是符号位还是数据位
符号位：1表示负数，0是正数

char a = 1;
在内存中的存储为：00000001 最高位的0代表它是正数，余下的是数据位
char b = -1;
它的原码为：10000001 最高位的1表示它是负数，余下的为数据位

浮点数

1. float //单精度浮点数
2. double //双精度浮点数
//C99当中使用了long double

在C语言当中浮点数的默认类型是double。
浮点数在内存当中的存储较于整形是复杂很多的，我会在文章的后面仔细讲解，力求通俗易懂

构造类型

数组类型： int arr[10]的类型是int [10]
结构体类型： struct
枚举类型：enum
联合类型: union

指针类型

1. int *pi;
2. char *pc;
3. float* pf;
4. void* pv;

空类型

void 表示空类型（无类型）
通常应用与函数类型，函数参数类型，指针类型

二. 整形在内存中的存储

现在我来介绍整形如何在内存当中存储

原码，反码，补码

首先我们知道数据在内存当中是以二进制的形式存储，但就仅仅是将数据翻译成二进制再存储就行了吗？
~~让我们看一个例子~~

char a = 1;
char b = -1;
char c = a + b;

a的二进制：00000001
b的二进制：10000001 //注意符号位
a+b：10000010//翻译成十进制为-2，显然不对，所以二进制的存储采用了原码，补码，反码的概念

计算机中的整数有三种表示方法，即原码、反码和补码。
三种表示方法均有符号位和数值位两部分，符号位都是用0表示“正”，用1表示“负”
现在我来介绍到底什么是原码，反码，补码
首先正数的原码反码补码相同，就是直接翻译成二进制

char a = 5;
//原码：00000101
//反码：00000101
//补码：00000101

负数的规则如下

原码：十进制数翻译成二进制
补码：原码符号位不变，其它位依次按位取反
补码：反码加一

char b = -5;
//原码：10000101
//反码：11111010 除最高位符号位其余按位取反
//补码：11111100 反码加一

那这个补码有什么用呢，为什么要这么做呢？

在计算机系统中，数值一律用补码来表示和存储。原因在于，使用补码，可以将符号位和数值域统
一处理；
同时，加法和减法也可以统一处理（CPU只有加法器）此外，补码与原码相互转换，其运算过程
是相同的，不需要额外的硬件电路。

现在我们再来看前面的那个例子

char a = 1;
补码：00000001
char b = -1;
原码：10000001
反码：11111110
补码：11111111
char c = a + b;
则a,b补码相加：100000000 因为char只能存储八个比特即八个二进制位，
所以最高位的1溢出丢失，c的补码为00000000，原码为00000000，即等于零

数据范围

用signed char举例

signed char
00000000  //0
00000001  //1
00000010  //2
00000011  //3
……
01111111 //127  
//以上都是正数，以下是负数，并且是补码，所以我们在计算时要注意
10000000  //此数特殊规定为-128（-127-1）
10000001  //-127
10000010  //-126
……
11111111 //原码10000001 十进制-1，以此类推向上

所以signed char 的取值范围-128~127
-128二进制序列10000000
并且int等其他整形的数据范围都是按照这种方法进行计算
unsigned char 的取值范围计算方法也类似
只不过没有负数所以下面不需要这么复杂的计算，直接计算出十进制即可
范围：0~255

特别注意
负数是可以赋值给unsigned 类型
但是当你打印如果你使用%d进行打印，编译器会认为这个数是有符号数，会按照补码翻译成原码再打印
如果要打印无符号数，就要用%u

三.大小端字节序存储

什么是大小端

大端（存储）模式，是指数据的低位保存在内存的高地址中，而数据的高位，保存在内存的低地址
中；
小端（存储）模式，是指数据的低位保存在内存的低地址中，而数据的高位,，保存在内存的高地
址中。

为什么有大端小端

为什么会有大小端模式之分呢？这是因为在计算机系统中，我们是以字节为单位的，每个
地址单元都对应着一个字节，一个字节为8bit
但是在C语言中除了8 bit的char之外，还有16 bit的short型，32 bit的long型（要看具体的编
译器），另外，对于位数大于8位的处理器，例如16位或者32位的处理器，
由于寄存器宽度大于一个字节，那么必然存在着一个如何将多个字节安排的问题。

即多字节的数据就存在数据的高低位存储在地址的高位还是低位

大端字节序存储

把一个数据低位字节处的数据存放在高地址处，把高位字节处的数据存放在低地址处

小端字节序存储

把一个数据低位字节处的数据存放在低地址处，把高位字节处的数据存放在高地址处

以我使用的VS2022来举例
在这里插入图片描述

是小端字节序存储，a在内存中的存储就是地址由低到高56 34 12 00 的方式存储

四.浮点数存储规则

首先浮点数存储规则和整形是完全不一样的。
规则如下：

根据国际标准IEEE（电气和电子工程协会） 754，任意一个二进制浮点数V可以表示成下面的形式：

(-1)^S * M * 2^E
(-1)^s表示符号位，当s=0，V为正数；当s=1，V为负数.
M表示有效数字，大于等于1，小于2。
2^E表示指数位

举例5.5

5.5 十进制浮点数
二进制为101.1
转换为科学计数法为1.011*2^2
前面加上符号位（-1）^ 0 便得（-1）^ 0 * 1.011 * 2 ^ 2
即上面的S = 0， M = 1.011， E = 2

所以内存中我们只需要存储S，M，E其余的-1和底数2则没有存储的必要
那在内存中怎么分配呢，如图
单精度浮点数存储模型

双精度浮点数存储模型
IEEE（电气和电子工程协会） 754对于E和M还有一些规定：
前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中xxxxxx表示小数部分。
IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的
xxxxxx部分。
比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。
以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字。
至于指数E，情况就比较复杂。
首先，E为一个无符号整数（unsigned int）
这意味着，如果E为8位，它的取值范围为0 ~ 255；如果E为11位，它的取值范围为0 ~ 2047。但是，我们知道，科学计数法中的E是可以出现负数的，
所以IEEE 754规定，存入内存时E的真实值必须再加上一个中间数，
对于8位的E，这个中间数是127；
对于11位的E，这个中间数是1023。
比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001

然后，指数E从内存中取出还可以再分成三种情况：
E不全为0或不全为1
这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将
有效数字M前加上第一位的1。
比如：
0.5（1/2）的二进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为
1.0*2^(-1)，其阶码为-1+127=126，表示为
01111110，而尾数1.0去掉整数部分为0，补齐0到23位00000000000000000000000，则其二进
制表示形式为:

0 01111110 00000000000000000000000

E全为0

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，
有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于
0的很小的数字。

E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；

浮点数存储的规则大致如上，很重要的一点就是浮点数的精度其实是很有限的，当你的小数过多时就无法做到完全储存，会出现误差，所以关于浮点数之间的比较就不能直接使用==（因为你以为存的数和实际内存中存的很可能不一样），而是看着两者差值是否在精度范围内，具体我就不过多赘述，详情有很多博主讲解过，可以去找来研究一番。

本次的分享就到这，谢谢大家，有疑问或者指出我的不足之处欢迎在评论区留言，大家多多交流。