函数原型:
istream& getline ( istream& is, string& str, char delim );
istream& getline ( istream& is, string& str );
读取文件,第一个按参数delim作为分隔符,第二个以'\n'作为分隔符。
问题产生:
在windows,新建文本文档,输入字符,换行保存,另存时选择文件编码为 unicode big endian.
在用上面第二个函数读取该文本的时候,会忽略掉第一行的字符。
文本示例:(三个逗号,windows平台下另存文件,选择编码:unicode big endian)
,
,
,
程序示例
#include
#include
using namespace std;
int main()
{
ifstream ifs("unicode_big_endian.txt");
string str;
int i = 0;
while(getline(ifs, str))
{
printf("%04X\n", *(unsigned short *)str.c_str());
}
return 0;
}
期望输出:
2C00
2C00
2C00
实际输出:
FFFE
2C00
2C00
如果直接在linux下,touch 创建一个文本,同样的输入3行逗号。
运行如上命令。
实际输出:
002C
002C
002C
问题原因:
用 hexdump -C 命令查看编码为unicode big endian的文件:
00000000 fe ff 00 2c 00 0d 00 0a 00 2c 00 0d 00 0a 00 2c |...,.....,.....,|
00000010
发现文件头多了 fe ff 两个字节。
同样,查看在linux下用touch创建的文件:
00000000 2c 0a 2c 0a 2c 0a |,.,.,.|
00000006
而用file查看两个文件的格式,如下:
unicode big endian的文件:
unicode_big_endian.txt: Big-endian UTF-16 Unicode character data, with CRLF line terminators
linux touch产生的文件:
unicode_big_endian.txt_bak1: ASCII text
问题解决:
其实这只是个文本编码的问题。
在windows下,文件保存的编码有四种,分别是:ANSI、unicode、unicode big endian、utf-8。
默认为ANSI编码,即系统的默认编码。(在区域与语言块设置)。
根据字节流的BOM(Byte Order Mark)规则,在一段字节流开始时,需要发送该字节流的编码方式,
UTF-8:EF BB BF
UTF-16:FF FE
UTF-16 Big-endian: FE FF
UTF-32 Big-endian: FF FE 00 00
UTF-32 Little-endian: 00 00 FE FF
如果上面都不是,则为ANSI编码 在windows下保存文件时,选择了格式unicode big endian的编码方式,所以文件头写上了UTF-16 Big-endian的表示FE FF标志。 而Linux 下touch创建的文件是ASCII编码方式,所以开头无任何标志。 所以在文件编码不是默认编码时,应注意文件开头的字节。 如果按行读取该文件,应注意在第一行加一个空行,保证忽略该文件的编码方式的标志。