linux c++ getline读取文本文件

函数原型:

istream& getline ( istream& is, string& str, char delim );
istream& getline ( istream& is, string& str ); 

读取文件,第一个按参数delim作为分隔符,第二个以'\n'作为分隔符。

问题产生:
在windows,新建文本文档,输入字符,换行保存,另存时选择文件编码为 unicode big endian.
在用上面第二个函数读取该文本的时候,会忽略掉第一行的字符。

文本示例:(三个逗号,windows平台下另存文件,选择编码:unicode big endian)
,
,
,

程序示例

#include <iostream>
#include <fstream>

using namespace std;

int main()
{
        ifstream ifs("unicode_big_endian.txt");
        string str;
        int i = 0;
        while(getline(ifs, str))
        {   
                printf("%04X\n", *(unsigned short *)str.c_str());
        }   

        return 0;
}

期望输出:

2C00
2C00
2C00

实际输出:

FFFE
2C00
2C00

如果直接在linux下,touch 创建一个文本,同样的输入3行逗号。
运行如上命令。

实际输出:

002C
002C
002C

问题原因:
用 hexdump -C <file-name> 命令查看编码为unicode big endian的文件:

00000000  fe ff 00 2c 00 0d 00 0a  00 2c 00 0d 00 0a 00 2c  |...,.....,.....,|
00000010

发现文件头多了 fe ff 两个字节。

同样,查看在linux下用touch创建的文件:

00000000  2c 0a 2c 0a 2c 0a                                 |,.,.,.|
00000006

而用file查看两个文件的格式,如下:
unicode big endian的文件:

unicode_big_endian.txt: Big-endian UTF-16 Unicode character data, with CRLF line terminators

linux touch产生的文件:
unicode_big_endian.txt_bak1: ASCII text

问题解决:
其实这只是个文本编码的问题。
在windows下,文件保存的编码有四种,分别是:ANSI、unicode、unicode big endian、utf-8。
默认为ANSI编码,即系统的默认编码。(在区域与语言块设置)。

根据字节流的BOM(Byte Order Mark)规则,在一段字节流开始时,需要发送该字节流的编码方式,

UTF-8:	EF BB BF
UTF-16:	FF FE
UTF-16 Big-endian: FE FF
UTF-32 Big-endian: FF FE 00 00
UTF-32 Little-endian: 00 00 FE FF
如果上面都不是,则为ANSI编码

在windows下保存文件时,选择了格式unicode big endian的编码方式,所以文件头写上了UTF-16 Big-endian的表示FE FF标志。
而Linux 下touch创建的文件是ASCII编码方式,所以开头无任何标志。

所以在文件编码不是默认编码时,应注意文件开头的字节。
如果按行读取该文件,应注意在第一行加一个空行,保证忽略该文件的编码方式的标志。



展开阅读全文

没有更多推荐了,返回首页