文件输入输出中遇到的大端序和小端序问题

最新推荐文章于 2024-10-05 14:10:01 发布

置顶 Du_咳咳

最新推荐文章于 2024-10-05 14:10:01 发布

阅读量3.4k

点赞数

分类专栏： C/C++ 文章标签：计算机内存 c语言存储

本文链接：https://blog.csdn.net/dcpkeke/article/details/48055847

版权

C/C++ 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

注意不要盲目相信以下内容！ 不要盲目相信以下内容！ 不要盲目相信以下内容! (重要的事情说三遍)，虽然以下内容也经过了我的验证，但是我的验证可能有错误的地方，欢迎大家留言告知。希望这篇文章成为你深入探索相关领域的引子和启发，而不是标准答案。

一、字节序

是指多字节数据在计算机内存中存储或者网络传输时各字节的存储顺序。 —— [ 百度百科 ]

大端序和小端序1.

字节序，又称端序，尾序，英文：Endianness。

在计算机体系结构中，字节序是指存放多字节数据的字节（byte）的顺序，典型的情况是整数在内存中的存放方式和网络传输的传输顺序。Endianness有时候也可以用指位序（bit）。

大小端序跟硬件的体系结构有关，所有x86系列的pc机都是小端序，跟操作系统无关。在x86系列的pc上的solaris系统是小端序，sun sparc平台的solaris是大端序。

大端字节序，高字节存于内存低地址，低字节存于内存高地址；小端字节序反之。

如一个long型数据0x12345678
- 大端字节序

内存地址	内存内容
内存低地址	0x12
	0x34
	0x56
内存高地址	0x78

- 小端字节序

内存地址	内存内容
内存低地址	0x78
	0x56
	0x34
内存高地址	0x12

代码实现

我们把这个十六进制数存入文件中，由之前的知识我们知道unsigned int占4个字节，在计算机中存储为原码形式，即只需要将这个int转换为二进制数。

注意： int在不同编译环境下所占长度不同，有一个简单的方法可以验证在自己的编译环境中 int 或者 unsigned int 所占字节数，使用sizeof。

因此我们以十六进制数0x12345678为例，把这个数在文件中，在计算机存储中我们预期将得到0x12345678。
代码实现如下：

unsigned int zhen = 0x12345678;
    FILE *stream;
    if ((stream = fopen("E:\\x.dat", "wb")) == NULL) /* open file TEST.$$$ */
    {
        fprintf(stderr, "Cannot open output file.\n");
        return 1;
    }
    fwrite(&zhen, sizeof(unsigned int), 1, stream);
    fclose(stream); /*关闭文件*/

然而我通过BES软件或者Winhex打开x.dat文件可以发现文件内容为 0x78 56 34 12。

通过二进制格式写入文件后可以发现，数字高位存放在高地址中，数字低位存放在低地址中。我们的计算机输出从低地址到高地址的，故输出结果为0x78 56 34 12。

注意： 如果你也需要将int按字节输出到文件中或者要把文件中的字节码读入为int，就要特别注意自己的机器是大端序还是小端序，特别是当文件是从另一台机器上拿过来的时候就更要特别注意，因为大端序和小端序的存储方式不同，就可能导致你的处理结果出错。

测试字节序

这里有一个十分简单的测试自己的机器是大端序还是小端序的方法，代码如下：

#include <stdio.h>
#include <stdlib.h>
/**
 * 联合类型的变量类型，用于测试字节序
 * 成员value的高低端字节可以由成员byte按字节访问
 *
 * */
typedef union{
    unsigned short int value;
    unsigned char byte[2];
}to;

int main(int argc, char *argv[])
{
    to typeorder;
    typeorder.value = 0xabcd;

    if(typeorder.byte[0] == 0xcd&& typeorder.byte[1] == 0xab){
        printf("Low endian byte order"
                "byte[0]:0x%x,byte[1]:0x%x\n",
                typeorder.byte[0],
                typeorder.byte[1]);
    }else if(typeorder.byte[0] == 0xab&& typeorder.byte[1] == 0xcd){
        printf("High endian byte order"
                "byte[0]:0x%x,byte[1]:0x%x\n",
                typeorder.byte[0],
                typeorder.byte[1]);
    }
    return 0;
}

而这个结果与C++的内存地址分配和内存区划分有关。请先看看下面的介绍。

二、 C++内存地址分配简介

博客发表后，本地缓存将被删除。　

用户可以，即使换浏览器或者清除缓存，内容也不会丢失。

内存地址是从高地址到低地址进行分配的：

int i=1;
int j=1;
cout<<&i<<endl<<&j<<endl;   //输出：0012FF60(高地址处) 0012FF54（低地址处）

//输出：0012FF60(高地址处) 0012FF54（低地址处）
2. 函数参数列表的存放方式是，先对最右边的形参分配地址，后对最左边的形参分配地址。
3. Little-endian模式的CPU对操作数的存放方式是从低字节到高字节的。
0x1234的存放方式入下：

0X4000 0x34
0X4001 0x12

Big-endian模式的CPU对操作数的存放方式是从高字节到低字节的。
0x1234的存放方式入下：

0x4000 0x12
0x4001 0x34

联合体union的存放顺序是所有成员都从低地址开始存放。
一个变量的地址是由它所占内存空间中的最低位地址表示的。

0X4000 0x34
0X4001 0x12

0x1234 的地址位0x4000
7. 堆栈的分配方式是从高内存地址向低内存地址分配的。

int ivar=0;
int iarray[2]={11, 22};

注意iarray[2]越界使用，比如对其赋值

iarray[2]=0;

那么则同时对ivar赋值为0，可能产生死循环，因为它们的地址相同，即&ivar等于&iarray[2]。

三、 C/C++内存区划分

一在C中分为这几个存储区
1.栈由编译器自动分配释放；
2.堆一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收；
3.全局区（静态区），全局变量和静态变量的存储是放在一块的，初始化的全局变量和静态变量在一块区域，未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。程序结束释放；
4.另外还有一个专门放常量的地方。程序结束释放。

在函数体中定义的变量通常是在栈上，用malloc, calloc, realloc等分配内存的函数分配得到的就是在堆上。在所有函数体外定义的是全局量，加了static修饰符后不管在哪里都存放在全局区（静态区）,在所有函数体外定义的static变量表示在该文件中有效，不能extern到别的文件用，在函数体内定义的static表示只在该函数体内有效。另外，函数中的”adgfdf”这样的字符串存放在常量区。比如：

int  a = 0; //全局初始化区
char *p1; //全局未初始化区
void main()
{     
int b;                   //栈     
char s[] = "abc"; //栈     
char *p2;         //栈     
char *p3 = "123456";       //123456{post.content}在常量区，p3在栈上     
static int c = 0;          //全局（静态）初始化区     
p1 = (char *)malloc(10);   //分配得来得10字节的区域在堆区     
p2 = (char *)malloc(20);   //分配得来得20字节的区域在堆区     
strcpy(p1, "123456");      //123456{post.content}放在常量区，编译器可能会将它与p3所指向的"123456"优化成一块
}

二.在C++中，内存分成5个区，他们分别是堆、栈、自由存储区、全局/静态存储区和常量存储区
1.栈，就是那些由编译器在需要的时候分配，在不需要的时候自动清楚的变量的存储区。里面的变量通常是局部变量、函数参数等。
2.堆，就是那些由new分配的内存块，他们的释放编译器不去管，由我们的应用程序去控制，一般一个new就要对应一个delete。如果程序员没有释放掉，那么在程序结束后，操作系统会自动回收。
3.自由存储区，就是那些由malloc等分配的内存块，他和堆是十分相似的，不过它是用free来结束自己的生命的。
4.全局/静态存储区，全局变量和静态变量被分配到同一块内存中，在以前的C语言中，全局变量又分为初始化的和未初始化的，在C++里面没有这个区分了，他们共同占用同一块内存区。
5.常量存储区，这是一块比较特殊的存储区，他们里面存放的是常量，不允许修改（当然，你要通过非正当手段也可以修改）。
在bbs上，堆与栈的区分问题，似乎是一个永恒的话题。　　
首先，我们举一个例子：

void f() 
{
    int* p=new int[5];
}

这条短短的一句话就包含了堆与栈，看到new，我们首先就应该想到，我们分配了一块堆内存，那么指针p呢？它分配的是一块栈内存，所以这句话的意思就是：在栈内存中存放了一个指向一块堆内存的指针p。
在程序会先确定在堆中分配内存的大小，然后调用operator new分配内存，然后返回这块内存的首地址，放入栈中，他在VC6下的汇编代码如下：

00401028 push 14h
0040102A call operator new (00401060)
0040102F add esp,4
00401032 mov dword ptr [ebp-8],eax
00401035 mov eax,dword ptr [ebp-8]
00401038 mov dword ptr [ebp-4],eax

　　这里，我们为了简单并没有释放内存，那么该怎么去释放呢？是delete p么？错了，应该是delete []p，这是为了告诉编译器：我删除的是一个数组，VC6就会根据相应的Cookie信息去进行释放内存的工作。

　　好了，我们回到我们的主题：堆和栈究竟有什么区别？

　　主要的区别由以下几点：

　　1、管理方式不同；

　　2、空间大小不同；

　　3、能否产生碎片不同；

　　4、生长方向不同；

　　5、分配方式不同；

　　6、分配效率不同；

　　管理方式：对于栈来讲，是由编译器自动管理，无需我们手工控制；对于堆来说，释放工作由程序员控制，容易产生memory leak。

　　空间大小：一般来讲在32位系统下，堆内存可以达到4G的空间，从这个角度来看堆内存几乎是没有什么限制的。但是对于栈来讲，一般都是有一定的空间大小的，例如，在VC6下面，默认的栈空间大小是1M（好像是，记不清楚了）。当然，我们可以修改：

　　打开工程，依次操作菜单如下：Project->Setting->Link，在Category 中选中Output，然后在Reserve中设定堆栈的最大值和commit。

　　注意：Reserve最小值为4Byte；commit是保留在虚拟内存的页文件里面，它设置的较大会使栈开辟较大的值，可能增加内存的开销和启动时间。

　　碎片问题：对于堆来讲，频繁的new/delete势必会造成内存空间的不连续，从而造成大量的碎片，使程序效率降低。对于栈来讲，则不会存在这个问题，因为栈是先进后出的队列，他们是如此的一一对应，以至于永远都不可能有一个内存块从栈中间弹出，在它弹出之前，在它上面的后进的栈内容已经被弹出，详细的可以参考数据结构，这里我们就不再一一讨论了。

　　生长方向：对于堆来讲，生长方向是向上的，也就是向着内存地址增加的方向；对于栈来讲，它的生长方向是向下的，是向着内存地址减小的方向增长。

　　分配方式：堆都是动态分配的，没有静态分配的堆。栈有2种分配方式：静态分配和动态分配。静态分配是编译器完成的，比如局部变量的分配。动态分配由alloca函数进行分配，但是栈的动态分配和堆是不同的，它的动态分配是由编译器进行释放，不需要我们手工实现。

　　分配效率：栈是机器系统提供的数据结构，计算机会在底层对栈提供支持：分配专门的寄存器存放栈的地址，压栈出栈都有专门的指令执行，这就决定了栈的效率比较高(我的注释:关于EBP寄存器请参考另一篇文章)。
堆则是C/C++函数库提供的，它的机制是很复杂的，例如为了分配一块内存，库函数会按照一定的算法（具体的算法可以参考数据结构/操作系统）在堆内存中搜索可用的足够大小的空间，如果没有足够大小的空间（可能是由于内存碎片太多），就有可能调用系统功能去增加程序数据段的内存空间，这样就有机会分到足够大小的内存，然后进行返回。显然，堆的效率比栈要低得多。

　　从这里我们可以看到，堆和栈相比，由于大量new/delete的使用，容易造成大量的内存碎片；由于没有专门的系统支持，效率很低；由于可能引发用户态和核心态的切换，内存的申请，代价变得更加昂贵。所以栈在程序中是应用最广泛的，就算是函数的调用也利用栈去完成，函数调用过程中的参数，返回地址，EBP和局部变量都采用栈的方式存放。所以，我们推荐大家尽量用栈，而不是用堆。

　　虽然栈有如此众多的好处，但是由于和堆相比不是那么灵活，有时候分配大量的内存空间，还是用堆好一些。
　　
　　无论是堆还是栈，都要防止越界现象的发生（除非你是故意使其越界），因为越界的结果要么是程序崩溃，要么是摧毁程序的堆、栈结构，产生意想不到的结果,就算是在你的程序运行过程中，没有发生上面的问题，你还是要小心，说不定什么时候就崩掉，那时候debug可是相当困难的：）