再谈C++逐行读取文本文件

要说使用C++逐行读取文本文件(通常为.txt文件),最为常见的写法是这样的:

std::string strLine;  
while(getline(file,strLine))  
{
  ……
}

这里忽略了一个重要的因素——文本的编码方式。

打开windows自带的记事本程序,留意观察“保存”对话框,其右下角提供了文字编码选择下拉列表,除了大家熟知的ANSI和UNICODE编码,还有可以说最为常用的UTF-8编码。

很显然,如果读取的文本文件并非ANSI编码,那么上述代码恐怕就无法如你所愿了。

因此,应当首先对文本编码进行判断,然后采取不同的处理办法,这才是稳妥的解决思路。

根据文本文件的头两个字节,我们可以做如下的判断:

  • 0xBBEF:UTF-8
  • 0xFEFF:UNICODE
  • 0xFFFE:UNICODE Big-Endian
  • 如果都不是,那么ANSI

接下来,我们可以使用ifstream的getline来逐行读取了,原因很简单,可以指定行结束标识,对于UNICODE编码来说,是0x000A

回到开始的代码,为了保持代码结构不变,可以用自定义的getline(比如叫GetLine)来替换string::getline。

 

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值