当我们进行文件操作时,经常需要把文本中的文字读入以进行某些操作,其中最常见的就是读取一个字符并把它保存在一个变量中。
比特、字节与ASCII码
首先字符在c++中是怎么保存的呢?首先说一下什么是字节,一个字节有8比特,一个比特只有0和1两种取值,所以一个字节可以表示2^8=256种信息。
一般在windows中汉字占两个字节,其他字符占一个字节。象数字、英文字母、符号这些加起来总数不是很多,用一个比特显然就够了,但是汉字肯定用一个比特是不行的,所以需要两个字节。最多可以表示2^8*2^8=65536种信息,看起来应该是够用了。字节中字符对应的数字就是ASCII码了。
实际上所有数字、英文字母、符号这些加起来也没有超过128个,所以为了区分汉字与其他字符,汉字的所有ASCII码都大于128,根据这个我们就可以分辨出我们从文件中读取到底是一个字符还是一个汉字辣!
一个一个地读取文字
要想一个一个地读取文件中的文字,需要用到流对象中的get()函数,这个函数没有参数,返回读取当前字符的ASCII码,同时会让读取的位置向后走一位。如果遇到一个汉字,第一次get()函数返回汉字的第一个ASCII码,第二次返回第二个ASCII码,这两个码们都大于128。
显然我们需要用一个变量把这个get()函数返回值保存下来,我们选择unsigned char型,用char当然也可以,只是大于128的部分都变成了对应的负数。试着输出一下这个变量,会发现小于128的都会输出(有的输出是不可见的),而单个的汉字ASCII码是不显示的,当我们连续输出两个汉字的ASCII码就能看到汉字了。
如何比较?
ReadTxt(string address) { fstream infile; infile.open(address);//address是文件位置
while (!infile.eof())//一直读到文件末尾 { unsigned char get1,get2; int a; get1 = infile.get(); a = int(get1); if ((get1) > 128) get2 = infile.get(); if ((get1) > 128) cout << get1 << get2 << endl; else cout << get1 << endl; } infile.close(); }