百思不得其解的换行和回车
先看两段代码:
/*打开文本文件,输出换行符和回车符*/
FILE* fp = fopen("file.txt", "w");
char* ptr = "a\nb";
fputc('\n',fp);
fprintf(fp, ptr);
fputc('\r',fp);
fwrite(ptr, 1, 3, fp);
/*打开二进制文件,输出换行符和回车符*/
FILE* fp = fopen("file.txt", "wb");
char* ptr = "a\nb";
fputc('\n',fp);
fprintf(fp, ptr);
fputc('\r',fp);
fwrite(ptr, 1, 3, fp);
造成以上现象的原因,主要二进制文件和文本文件的不同。
1、换行符和回车符的由来
在计算机还没有出现之前,有一种叫做电传打字机的机器,每秒钟可以打10个字符。但是它有一个问题,就是打完一行换行的时候,要用去0.2秒,正好可以打两个字符。要是在这0.2秒里面,又有新的字符传过来,那么这个字符将丢失。
于是,研制人员想了个办法解决这个问题,就是在每行后面加两个表示结束的字符。一个叫做“回车”,告诉打字机把打印头定位在左边界;另一个叫做“换行”,告诉打字机把纸向下移一行。
这就是“换行”和“回车”的来历,后来,计算机发明了,这两个概念也就被般到了计算机上。那时,存储器很贵,一些科学家认为在每行结尾加两个字符太浪费了,加一个就可以。于是,就出现了分歧:
- Unix 系统里,每行结尾只有“<换行>”,即“\n”;
- Windows系统里面,每行结尾是“ <回车><换 行>”,即“\r\n”;
- Mac系统里,每行结尾是“<回车>”,即“\r”;
- C语言用’\n’表示换行。
一个直接后果是,Unix/Mac系统下的文件在Windows里打开的话,所有文字会变成一行;而Windows里的文件在Unix/Mac下打开的话,在每行的结尾可能会多出一个^M符号。
2、读“回车”符
本文开头的两段代码,即为以文本格式和二进制格式对“回车”符的写操作。接下来是对“回车”符的读操作。
我们用文本文件和二进制的形式分别打开此file.txt,读取四个字节。
文本文件形式
FILE* fp = fopen("file.txt", "r"); // 文本形式打开
char buf[4] = {0,0,0,0};
fread(buf, 1, 4, fp);
二进制文件形式
FILE* fp = fopen("file.txt", "rb"); // 二进制打开
char buf[4] = {0,0,0,0};
fread(buf, 1, 4, fp);
可以看出,当用文本形式打开时,遇到换行符时,仅读到一个0xa(十六进制ASCII码,即换行符’\n’);而用二进制形式打开时,遇到换行符时,读到了0xd(十六进制ASCII码,即回车符’\r’)和0xa,即’\r\n’。
3、总结
- 读写文本文件时:当读到换行时(’\r\n’)会自动将’\r’舍去,只保留’\n’;当写入’\n’时,实际上写入了’\r\n’(windows平台用’\r\n’表示换行)。
- 读写二进制文件时,可以概括为:所写即所见(写),所见即所得(读)。
- 文本文件更容易让人理解,二进制文件更容易让机器理解(机器只能够识别0和1,即二进制)。
- 读写文本文件用fprintf和fscanf等,这两个函数会默认处理的数据都是ASCII码;读写二进制文件用fwrite和fread。因为fwrite是将数据不经转换直接以二进制的形式写入文件,而fprintf是将数据转换为字符后再写入文件。以下作简要描述。
FILE* fp = fopen("file.txt", "wb");
int num = 12345678;
fwrite(&num, 1, 4, fp);
fputc('\n', fp); //由于二进制打开,故为0x0A
fprintf(fp, "%d", num);
上图中的代码和运行后的结果可以看出:
- 使用fwrite写入文件中的四个字节是0x4E、0x61、0xBC、0x00(32位int,十进制12345678的十六进制形式为0x00BC614E,小端存储)。
- 使用fpintf将一个int型数字12345678写入文本文件时,将12345678每一位转换为ASCII码存储,如1和2分别对应ASCII码49和50,使用十六进制方式打开显示的便是31和32,同理剩余几位数。
小结:
由于fprintf写入时,对于整数来说,一位占一个字节,比如1占1个字节,12占2个字节,123占3个字节,12345占5个字节,所以文件的大小会随数据的大小而改变,对大数据空间占用很大。
而fwrite是按二进制写入,所以写入数据所占空间是根据数据类型来确定,比如int的大小为4个字节(一般32位下),那么整数12所占空间为4个字节,123、12345所占空间也是4个字节。所以二进制写入比格式化写入更省空间。
fprintf 函数
fprintf(FILE *stream, const char *format, ...);
1、stream参数
该参数是一个 FILE 对象的指针,指定一个待操作的数据流。
2、format参数
是一个格式化字符串,由格式化占位符和普通字符组成。格式化占位符(以 % 开头)用于指明输出的参数值如何格式化。格式化占位符的语法如下:
%[flags][width][.precision][length]specifier
每一个格式化占位符均以 % 开始,以转换字符结束。
specifier(转换字符,必选)的内容及含义如下:参考文章
例
int num = 0x1;
fprintf(fp, "%3x", num);
fprintf(fp, "%c", '\n');
fprintf(fp, "%03x", num);