linux 读取纯文本文件,linux c++ getline读取文本文件

最新推荐文章于 2023-09-11 14:57:53 发布

好食捷

最新推荐文章于 2023-09-11 14:57:53 发布

阅读量574

点赞数

文章标签： linux 读取纯文本文件

函数原型：

istream& getline ( istream& is, string& str, char delim );

istream& getline ( istream& is, string& str );

读取文件，第一个按参数delim作为分隔符，第二个以'\n'作为分隔符。

问题产生：

在windows，新建文本文档，输入字符，换行保存，另存时选择文件编码为 unicode big endian.

在用上面第二个函数读取该文本的时候，会忽略掉第一行的字符。

文本示例：(三个逗号，windows平台下另存文件，选择编码：unicode big endian)

,

,

,

程序示例

#include

#include

using namespace std;

int main()

{

ifstream ifs("unicode_big_endian.txt");

string str;

int i = 0;

while(getline(ifs, str))

{

printf("%04X\n", *(unsigned short *)str.c_str());

}

return 0;

}

期望输出：

2C00

2C00

2C00

实际输出：

FFFE

2C00

2C00

如果直接在linux下，touch 创建一个文本，同样的输入3行逗号。

运行如上命令。

实际输出：

002C

002C

002C

问题原因：

用 hexdump -C 命令查看编码为unicode big endian的文件：

00000000 fe ff 00 2c 00 0d 00 0a 00 2c 00 0d 00 0a 00 2c |...,.....,.....,|

00000010

发现文件头多了 fe ff 两个字节。

同样，查看在linux下用touch创建的文件：

00000000 2c 0a 2c 0a 2c 0a |,.,.,.|

00000006

而用file查看两个文件的格式，如下：

unicode big endian的文件：

unicode_big_endian.txt: Big-endian UTF-16 Unicode character data, with CRLF line terminators

linux touch产生的文件：

unicode_big_endian.txt_bak1: ASCII text

问题解决：

其实这只是个文本编码的问题。

在windows下，文件保存的编码有四种，分别是：ANSI、unicode、unicode big endian、utf-8。

默认为ANSI编码，即系统的默认编码。(在区域与语言块设置)。

根据字节流的BOM(Byte Order Mark)规则，在一段字节流开始时，需要发送该字节流的编码方式，

UTF-8:EF BB BF

UTF-16:FF FE

UTF-16 Big-endian: FE FF

UTF-32 Big-endian: FF FE 00 00

UTF-32 Little-endian: 00 00 FE FF

如果上面都不是，则为ANSI编码在windows下保存文件时，选择了格式unicode big endian的编码方式，所以文件头写上了UTF-16 Big-endian的表示FE FF标志。而Linux 下touch创建的文件是ASCII编码方式，所以开头无任何标志。所以在文件编码不是默认编码时，应注意文件开头的字节。如果按行读取该文件，应注意在第一行加一个空行，保证忽略该文件的编码方式的标志。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux 读取纯文本文件,linux c++ getline读取文本文件

函数原型：istream& getline ( istream& is, string& str, char delim );istream& getline ( istream& is, string& str );读取文件，第一个按参数delim作为分隔符，第二个以'\n'作为分隔符。问题产生：在windows，新建文本文档，输入字符，换行保存，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。