二进制文件和文本文件的区别

数据在物理上的存储方式是二进制的,即由0/1字符串构成。而我们解读这些的方式有两种:基于字符编码,和基于值编码。

基于字符编码

基于字符编码,即每个我们肉眼可读的字符都有唯一对应的0/1字符串,我们读、写这些字符都使用同一套编码方式。

如果某文件的数据使用基于字符的编码,那么该文件即为“文本文件”。

常见的基于字符的编码有:ASCII码,Unicode编码。

1. ASCII码我们都比较熟悉了,它是一种定长编码,编码规则为:

1字节 0xxxxxxx

2. Unicode编码中比较常见的是UTF-8编码,其为变长编码,即某一个字符的UTF-8编码有可能是1字节,也有可能是多字节。具体编码规则如下:

1字节 0xxxxxxx 
2字节 110xxxxx 10xxxxxx 
3字节 1110xxxx 10xxxxxx 10xxxxxx 
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
基于值编码

基于值编码,可以理解为自定义的编码。

如果某文件的数据使用基于值的编码,那么该文件即为“二进制文件”。不同的应用程序对二进制文件中的每个值会有不同的解读,就像不同的编码对文本文件中的每一/多个字节有不同的解读。

常见的二进制文件有可执行程序、图形、图像、声音等等。

*用记事本打开二进制文件出现乱码
由于二进制文件有其独立的编码解码规则,而这一规则通常是不同于文本文件的编码解码规则的,所以当我们用记事本打开二进制文件,也就是说,我们尝试用ASCII码的规则去解读二进制文件时,会出现乱码。因为:

同样的一串字符串 00000000 00000000 00000000 00000001 在二进制文件里可能想表达的是一个4字节的整数1,而误用ASCII码解码便会输出NUL NUL NUL SOH。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值