目录
最近学了一些Python上的文件操作,然后对二进制文件和文本文件产生了兴趣,看了好多好多博客才对这俩的区别有了初步的认识,不同的博客有不同的理解。我将我所看到的博客中的一些观点和我的理解进行一下总结。
区别
最表象的区别:
不同的二进制文件需要不同的软件来打开,例如BMP文件,需要一个读图的软件来打开才能看到里面保存的图像,MP3文件需要一个播放器软件才能听到里面的音频。而文本文件只需要记事本就可以打开查看里面的内容。
再深一点的区别:
二进制文件里存储的东西是二进制数据,就是01串。而文本文件中存储的是字符串,比如汉字。这点是从逻辑层面上所说的,不完全正确,但是便于理解,下面我会进阶的细说这里。
更深一点的区别:
二进制文件的读写速度非常快,因为它就是将数据在内存中的存储形式(二进制)原模原样放到文件中,读出来的东西不需要经过处理就可以直接放到内存中去用,但是这些二进制串我们是看不懂也处理不了的,所以就需要专门的解码软件来处理,才能将信息显现到我们面前,所以说二进制文件的读写比较快,但是对于我们程序员来说,可读性差。
而文本文件首先有一个编码方式,例如ASCII或者Unicode,当我们要存一些东西时,会先用一定的编码方式将这些东西转为对应的编码,再将这个编码写进文件里,读的时候要先解码,才能将对应的字符显示出来,所以读写比较慢,但是读出来的东西是字符串,我们能看懂,可读性比较好。
为什么记事本打开二进制文件会乱码?
再详细说一下文本文件的存储过程:数据在内存中都是以二进制存储的,所以要先从内存中将数据的二进制取出来,用ASCII(或Unicode)编码方式将其编码,再将这个编码存进文件中。特别有趣的地方就是:如果这些数据是字符,那么他们在内存中本身就是按ASCII码编好的,所以存进文件文件时不需要再进行编码了,也是原模原样将内存中的东西放进了文件中(与二进制文件存储方式一样是不是?)。但如果不是字符型数据,例如int i=10,他在内存中存的是10的二进制:1010,这个二进制经过ASCII编码之后,再解码出来肯定就不是10了。
这就解释了为什么用记事本打开二进制文件时会乱码的问题。首先记事本也是一种解码软件,但他是按ASCII或者Unicode来解码的,他会按自己的方式给二进制文件来解码并显示字符。所以用记事本打开二进制文件时,也不会全部乱码,仔细看那些用字符串形式存的数据肯定不会乱码。举个例子:
#include<stdio.h>
struct worker
{
int number;
char name[20];
int age;
};
int main()
{
struct worker wk;
wk.age=1;
scanf("%s",wk.name);
wk.number=100;
FILE *file=fopen("test","wb+");//wb+打开一个二进制文件,不存在则新建
fwrite(&wk,sizeof(struct worker),1,file);
fclose(file);
return 0;
}
在这段程序中,我定义了一个结构体,里面有字符型和整型数据,程序运行时我输入了“12345”到字符数组name中。然后将其存进了test这个二进制文件中,然后我用记事本打开这个二进制文件看看:
可以看到,程序按int、char[]、int的顺序将数据存了进去,再读出来时,两个int型的数据1和100都乱码了,但是字符数组并没有乱码。
总结一下这个现象就是:字符型数据存到二进制文件和存到文本文件中没有区别。
文本文件也是二进制文件:
刚才说了在逻辑层面上:文本文件存的是字符,二进制文件存的是二进制数据。其实在物理层面上讲,我们的硬盘只能存储二进制。所以广义上讲文本文件也是二进制文件,只不过文本文件里只能存字符型数据,而字符型数据经过ASCII或Unicode解码之后我们能看懂。
换一个角度想,所有二进制文件在硬盘上都是01串,我们都看不懂,所以需要一个解码软件将这堆二进制转换成我们想要的信息形式。所以这时就回到了文本文件和二进制文件的最表象区别:解码软件不同!用记事本打开二进制文件会乱码,而二进制的解码软件基本都打不开文本文件。
总结
在实际存储中最好是将数据分成字符数据和非字符数据两类:
如果存储的是字符数据,无论采用文本文件还是二进制文件都是没有任何区别的,这点上面解释过了。
如果存储的是非字符数据,那么就要看我们使用的情况来决定:
1、如果是需要频繁的保存和访问数据,那么应该采取二进制文件进行存放,这样可以节省存储空间和转换时间。
2、如果需要频繁的向终端显示数据或从终端读入数据,那么就将这些数据转为字符串型,采用文本文件进行存放,这样可以节省转换时间。