【C语言】数据在内存中的存储方式 - 别出心裁版（内含大小端字节序）

最新推荐文章于 2024-08-23 00:00:02 发布

埋头编程~

最新推荐文章于 2024-08-23 00:00:02 发布

阅读量662

点赞数 83

分类专栏： C语言文章标签： c语言前端数据库大小端

本文链接：https://blog.csdn.net/tianxiawushanu/article/details/141367603

版权

C语言专栏收录该内容

41 篇文章 0 订阅

订阅专栏

文章目录

前言
1. 整数在内存的存储方式
- 1.1 原码、反码和补码
2. 大小端字节序和字节序的判断
3. 浮点数在内存中的存储

前言

在编写代码的同时，你是否好奇或者思考过数据在内存中是以什么样的方式存储的。也许你会回答说，数据在内存中不就是二进制的形式表示的。这句话一点也没错，可再往深一步探讨，内存又是如何以二进制的形式来组织数据的呢？

数据分为整型家族（短整型、整型、长整型），浮点数家族（单精度浮点数、双精度浮点数），当然字符类型也可归为整型家族的成员。这些数据在内存中是以一样的规则去存储的，还是各自有一套规则呢？

本文我们就来一起探索一下数据在内存之后的神秘故事，相信在听完本文后，你对计算的世界兴趣又会上升到一个新的高度。

1. 整数在内存的存储方式

整数在内存中有三种表示形式：原码、反码、补码

那什么原码、反码和补码呢？接下来就给大家讲解一下。

1.1 原码、反码和补码

整数分为无符号整数和有符号整数。

相信大家在字里行间中已经猜到了一些意思，
无符号整数：说大白话，就是没有符号的整数，也就是正整数。
有符号整数：包括负数、正数和零。

那我会针对这两种形式，分别讲解它们的区别以及它们在内存中存储是否有差异。

首先我们得想一个问题：既然有了有符号整数，为何还要来一个无符号整数呢？这个问题就好像“既生瑜何生亮”。但是我想说的是，每一个事物的存在都有它的道理，那究竟是什么道理能把整数分成这两大部分呢？别急，听我分析！

历史角度：从计算机刚诞生之初，就是为了计数使用的，所以当时在内存中存储的无符号整数是比较流行的，而且电子部件的构造较为容易，无符号整数就流传到现在了。
功能角度(重要)：无符号整数有它相对应的场景，而且它所能表示最大正数的范围是有符号整数所能表示最大正数范围的两倍之多。也就是说，无符号整数在它相对应的场景下容错率比有符号整数要高。

这里你可能会想，为什么是两倍之多，而不是三倍、四倍呢？
其实这就要考虑到，无符号整数和有符号整数的二进制表示方式了。

假设是在32位的环境之下，

一个整型占4个字节，也就是32位。
对于无符号整数来讲，这32位都可以用来作为有效的数据位。数据所能表达范围：0~2的32次方-1；
对于有符号整数来讲，32位中的最高位要用做符号位(0表示"正"，1表示"负")，其余的31位才为有效数据位。数据所能表示的范围：-2的31次方~2的31次方-1

到这里你就知道了为什么是两倍之多了。这里我们重点讲解有符号整数！！！

哈哈哈

好了，回到正轨，我们继续讲原码、反码和补码(后面都是以有符号整数为例)。

敲黑板,重点来了：
原码：整数的二进制表示方式；
反码：如果该数为正数,原码和反码相同；如果该数为负数，反码就为除符号位不变，其余按位取反。
补码：反码 + 1

整型在内存中是补码的形式存储的。

接下来，我举几个例子，强化大家的意识：

在32位的环境下，分别写出88和-66的各自的原码、反码和补码。

88的原码：00000000 00000000 00000000 01011000
88的反码：00000000 00000000 00000000 01011000（正数的反码就是原码）
88的补码：00000000 00000000 00000000 01011001（反码+1）
88在内存中是这样的二进制串：00000000 00000000 00000000 01011001（补码）

-66的原码：10000000 00000000 00000000 01000010
-66的反码：11111111 11111111 11111111 10111101（符号位不变，其余按位取反）
-66的补码：11111111 11111111 11111111 10111110（反码+1）
-66在内存中是这样的二进制串：11111111 11111111 11111111 10111110（补码）

这是不是很简单，只要我们记住了原码、反码和补码的规则，就能很快的写出它们。

可能到这里，你也许会对为什么内存中存的是二进制的补码，而不是原码或者反码呢？

使用补码，可以将数值域和符号域一起处理了。
同时，加法和减法也可以统⼀处理（CPU只有加法器）此外，补码与原码相互转换，其运算过程是相同的，不需要额外的硬件电路。

2. 大小端字节序和字节序的判断

当我们了解了整数在内存中的存储形式时，我们对下面的代码进行调试：

#include<stdio.h>

int main()
{
	int a = 0x11223344;
	return 0;
}

调试后的结果为：
调试结果
你会发现，数据好像倒着存的。这就是大小端字节序引发的效果。

2.1 什么是大小端字节序

其实超过⼀个字节的数据在内存中存储的时候，就有存储顺序的问题，按照不同的存储顺序，我们分为大端字节序存储和小端字节序存储，下⾯是具体的概念：
大端（存储）模式：

是指数据的低位字节内容保存在内存的高地址处，而数据的高位字节内容，保存在内存的低地址处。

小端（存储）模式：

是指数据的低位字节内容保存在内存的低地址处，而数据的高位字节内容，保存在内存的高地址处。

上述概念需要记住，方便分辨大小端。

2.2 为什么会有大小端字节序

为什么会有大小端模式之分呢？
这是因为在计算机系统中，我们是以字节为单位的，每个地址单元都对应着⼀个字节，⼀个字节为8bit 位，但是在C语言中除了8 bit 的 char 之外，还有16 bit 的 short 型，32 bit 的 long 型（要看具体的编译器），另外，对于位数大于8位的处理器，例如16位或者32位的处理器，由于寄存器宽度大于⼀个字节，那么必然存在着⼀个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。

例如：⼀个 16bit 的 short 型 x ，在内存中的地址为 0x0010 ， x 的值为 0x1122 ，那么
0x11 为高字节， 0x22 为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x0010 中，0x22 放在高地址中，即 0x0011 中。小端模式，刚好相反。我们常用的 X86 结构是小端模式，而KEIL C51 则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

2.3 判断字节序问题

问题：请写一个程序来判断该编译器采用的是大端字节序还是小端字节序。

方法一：用指针的特性

int main()
{
	//我们假定一个数
	int num = 1; //其在内存中存储（16禁止表示）：00 00 00 01

	//如果它为小端存储，那么其第一个字节的内容一定是01
	//如果它为大端存储，那么其第一个字节的内容一定是00

	char* p = (char*)&num; //p指针解引用的话，只能访问一个字节的内容

	if (*p == 1)
	{
		printf("小端存储\n");
	}
	else
	{
		printf("大端存储\n");
	}


	return 0;
}

方法二：用联合体的特性

#include
int main()
{
	typedef union Un
	{
		char ch;
		int i;
	}Un;

	Un un; //利用联合体内存共用的特性
	un.i = 1;

	if (un.ch == 1)
	{
		printf("小端存储\n");
	}
	else
	{
		printf("大端存储\n");
	}

	return 0;
}

3. 浮点数在内存中的存储

常见的浮点数：3.1415926，1E10等，浮点数家族：float、double、long double类型。
浮点数的范围：float.h中定义了。

3.1 练习

#include <stdio.h>
int main()
{
 	int n = 9;
 	float *pFloat = (float *)&n;
	printf("n的值为：%d\n",n);
 	printf("*pFloat的值为：%f\n",*pFloat);
 	
 	*pFloat = 9.0;
	printf("num的值为：%d\n",n);
	printf("*pFloat的值为：%f\n",*pFloat);
 	return 0;
}

输出的结果是什么？

你会发现第二行和第三行打印的数据好像是看乱码，为什么会这样呢？

其实本质上都是浮点数在内存中的存储方式造成的。可以暂且试想一下，整数在内存中存储有一套规则，而浮点数在内存中存储也有一套自己的规则。如果我用整数的规则去存储浮点数，拿结果不就乱了吗，反之，也是一样的。

3.2 浮点数的存储方式

根据国际标准IEEE（电气和电⼦⼯程协会） 754，任意⼀个⼆进制浮点数V可以表示成下⾯的形式：

V = (−1) 的 S次方 *M * 2的E次方
• (−1) 的 S次方表示符号位，当S=0，V为正数；当S=1，V为负数
• M 表示有效数字，M是⼤于等于1，小于2的
•2的E次方表示指数位

举例来说：
十进制的5.0，写成⼆进制是 101.0 ，相当于 1.01×2^2 。
那么，按照上面V的格式，可以得出S=0，M=1.01，E=2。

十进制的-5.0，写成⼆进制是 -101.0 ，相当于 -1.01×2^2 。
那么，S=1，M=1.01，E=2。

IEEE 754规定(重点)：
对于32位的浮点数，最⾼的1位存储符号位S，接着的8位存储指数E，剩下的23位存储有效数字M。
对于64位的浮点数，最⾼的1位存储符号位S，接着的11位存储指数E，剩下的52位存储有效数字M。

3.2.1 浮点数的存储过程

IEEE 754 对有效数字M和指数E，还有⼀些特别规定。
前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中 xxxxxx 表示小数部分。
IEEE 754 规定，在计算机内部保存M时，默认这个数的第⼀位总是1，因此可以被舍去，只保存后面的xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第⼀位的1加去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第⼀位的1舍去以后，等于可以保存24位有效数字。

至于指数E，情况就比较复杂
首先，E为⼀个无符号整数（unsigned int）
这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存⼊内存时E的真实值必须再加上⼀个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。⽐如，2^10的E是10，所以保存成32位浮点数时，必须保存10+127=137，即10001001。

3.2.2 浮点数的读取过程

指数E从内存中取出还可以再分成三种情况：

E不全为0或不全为1
这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第⼀位的1。
比如：0.5 的⼆进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1)，其阶码为-1+127(中间值)=126，表⽰为01111110，而尾数1.0去掉整数部分为0，补齐0到23位00000000000000000000000，则其⼆进制表示形式为: