二进制文件和文本文件的区别详解

目录

区别

        最表象的区别:

        再深一点的区别:

        更深一点的区别:

        为什么记事本打开二进制文件会乱码?

文本文件也是二进制文件:

总结


        最近学了一些Python上的文件操作,然后对二进制文件和文本文件产生了兴趣,看了好多好多博客才对这俩的区别有了初步的认识,不同的博客有不同的理解。我将我所看到的博客中的一些观点和我的理解进行一下总结。

区别

        最表象的区别:

        不同的二进制文件需要不同的软件来打开,例如BMP文件,需要一个读图的软件来打开才能看到里面保存的图像,MP3文件需要一个播放器软件才能听到里面的音频。而文本文件只需要记事本就可以打开查看里面的内容。

        再深一点的区别:

        二进制文件里存储的东西是二进制数据,就是01串。而文本文件中存储的是字符串,比如汉字。这点是从逻辑层面上所说的,不完全正确,但是便于理解,下面我会进阶的细说这里。

        更深一点的区别:

        二进制文件的读写速度非常快,因为它就是将数据在内存中的存储形式(二进制)原模原样放到文件中,读出来的东西不需要经过处理就可以直接放到内存中去用,但是这些二进制串我们是看不懂也处理不了的,所以就需要专门的解码软件来处理,才能将信息显现到我们面前,所以说二进制文件的读写比较快,但是对于我们程序员来说,可读性差。

        而文本文件首先有一个编码方式,例如ASCII或者Unicode,当我们要存一些东西时,会先用一定的编码方式将这些东西转为对应的编码,再将这个编码写进文件里,读的时候要先解码,才能将对应的字符显示出来,所以读写比较慢,但是读出来的东西是字符串,我们能看懂,可读性比较好。

        为什么记事本打开二进制文件会乱码?

        再详细说一下文本文件的存储过程:数据在内存中都是以二进制存储的,所以要先从内存中将数据的二进制取出来,用ASCII(或Unicode)编码方式将其编码,再将这个编码存进文件中。特别有趣的地方就是:如果这些数据是字符,那么他们在内存中本身就是按ASCII码编好的,所以存进文件文件时不需要再进行编码了,也是原模原样将内存中的东西放进了文件中(与二进制文件存储方式一样是不是?)。但如果不是字符型数据,例如int i=10,他在内存中存的是10的二进制:1010,这个二进制经过ASCII编码之后,再解码出来肯定就不是10了。

        这就解释了为什么用记事本打开二进制文件时会乱码的问题。首先记事本也是一种解码软件,但他是按ASCII或者Unicode来解码的,他会按自己的方式给二进制文件来解码并显示字符。所以用记事本打开二进制文件时,也不会全部乱码,仔细看那些用字符串形式存的数据肯定不会乱码。举个例子:

#include<stdio.h>
struct worker
{
    int number;
    char name[20];
    int age;
};
int main()
{
	struct worker wk;
	wk.age=1;
	scanf("%s",wk.name);
        wk.number=100;
	FILE *file=fopen("test","wb+");//wb+打开一个二进制文件,不存在则新建
	fwrite(&wk,sizeof(struct worker),1,file);
	fclose(file);
	return 0;
}

        在这段程序中,我定义了一个结构体,里面有字符型和整型数据,程序运行时我输入了“12345”到字符数组name中。然后将其存进了test这个二进制文件中,然后我用记事本打开这个二进制文件看看:

        可以看到,程序按int、char[]、int的顺序将数据存了进去,再读出来时,两个int型的数据1和100都乱码了,但是字符数组并没有乱码。

        总结一下这个现象就是:字符型数据存到二进制文件和存到文本文件中没有区别。

文本文件也是二进制文件:

        刚才说了在逻辑层面上:文本文件存的是字符,二进制文件存的是二进制数据。其实在物理层面上讲,我们的硬盘只能存储二进制。所以广义上讲文本文件也是二进制文件,只不过文本文件里只能存字符型数据,而字符型数据经过ASCII或Unicode解码之后我们能看懂。

        换一个角度想,所有二进制文件在硬盘上都是01串,我们都看不懂,所以需要一个解码软件将这堆二进制转换成我们想要的信息形式。所以这时就回到了文本文件和二进制文件的最表象区别:解码软件不同!用记事本打开二进制文件会乱码,而二进制的解码软件基本都打不开文本文件。

总结

        在实际存储中最好是将数据分成字符数据和非字符数据两类:

        如果存储的是字符数据,无论采用文本文件还是二进制文件都是没有任何区别的,这点上面解释过了。

        如果存储的是非字符数据,那么就要看我们使用的情况来决定:

        1、如果是需要频繁的保存和访问数据,那么应该采取二进制文件进行存放,这样可以节省存储空间和转换时间。

        2、如果需要频繁的向终端显示数据或从终端读入数据,那么就将这些数据转为字符串型,采用文本文件进行存放,这样可以节省转换时间。

  • 14
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值