linux 读取纯文本文件,linux c++ getline读取文本文件

函数原型:

istream& getline ( istream& is, string& str, char delim );

istream& getline ( istream& is, string& str );

读取文件,第一个按参数delim作为分隔符,第二个以'\n'作为分隔符。

问题产生:

在windows,新建文本文档,输入字符,换行保存,另存时选择文件编码为 unicode big endian.

在用上面第二个函数读取该文本的时候,会忽略掉第一行的字符。

文本示例:(三个逗号,windows平台下另存文件,选择编码:unicode big endian)

,

,

,

程序示例

#include

#include

using namespace std;

int main()

{

ifstream ifs("unicode_big_endian.txt");

string str;

int i = 0;

while(getline(ifs, str))

{

printf("%04X\n", *(unsigned short *)str.c_str());

}

return 0;

}

期望输出:

2C00

2C00

2C00

实际输出:

FFFE

2C00

2C00

如果直接在linux下,touch 创建一个文本,同样的输入3行逗号。

运行如上命令。

实际输出:

002C

002C

002C

问题原因:

用 hexdump -C 命令查看编码为unicode big endian的文件:

00000000 fe ff 00 2c 00 0d 00 0a 00 2c 00 0d 00 0a 00 2c |...,.....,.....,|

00000010

发现文件头多了 fe ff 两个字节。

同样,查看在linux下用touch创建的文件:

00000000 2c 0a 2c 0a 2c 0a |,.,.,.|

00000006

而用file查看两个文件的格式,如下:

unicode big endian的文件:

unicode_big_endian.txt: Big-endian UTF-16 Unicode character data, with CRLF line terminators

linux touch产生的文件:

unicode_big_endian.txt_bak1: ASCII text

问题解决:

其实这只是个文本编码的问题。

在windows下,文件保存的编码有四种,分别是:ANSI、unicode、unicode big endian、utf-8。

默认为ANSI编码,即系统的默认编码。(在区域与语言块设置)。

根据字节流的BOM(Byte Order Mark)规则,在一段字节流开始时,需要发送该字节流的编码方式,

UTF-8:EF BB BF

UTF-16:FF FE

UTF-16 Big-endian: FE FF

UTF-32 Big-endian: FF FE 00 00

UTF-32 Little-endian: 00 00 FE FF

如果上面都不是,则为ANSI编码 在windows下保存文件时,选择了格式unicode big endian的编码方式,所以文件头写上了UTF-16 Big-endian的表示FE FF标志。 而Linux 下touch创建的文件是ASCII编码方式,所以开头无任何标志。 所以在文件编码不是默认编码时,应注意文件开头的字节。 如果按行读取该文件,应注意在第一行加一个空行,保证忽略该文件的编码方式的标志。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值