高效地反向逐行读取文件

            在某些时候,我们需要从文本中读取最后几行。这时候如果采用基于流的文件读取方式,在文件大的时候效率十分低下,因为要把整个文本读取一遍才能定位到最后几行。本文提供的实现采用逐块回退读取文件数据的方式,提供快速且内存可控的反向逐行读取功能。上代码吧:
class BackwardLineReader
{
public:
      // 指定文件路径、换行符、每次读取的字节数、最大的缓存大小(用于避免由于一直没有读到换行,导致内存无限增大)
      BackwardLineReader(const std::string& filePath, const std::string& endOfLine_, int singleReadFileBytes_ = 4096, int maxBufSize_ = 4096)
            : fp(NULL)
            , endOfLine(endOfLine_)
            , fileSize(0)
            , currentReadFilePos(0)
            , singleReadFileBytes(singleReadFileBytes_)
            , maxBufSize(maxBufSize_)
            , failedFlag(false)      {
            XASSERT(endOfLine.size() > 0 && singleReadFileBytes > 0 && maxBufSize > 0);
            fileSize = FileUtil::getFileSize(filePath);  // 获取文件的大小
            if (fileSize <= 0) {
                  failedFlag = true;
                  return;
            }
            currentReadFilePos = fileSize;
            fp = fopen(filePath.c_str(), "rb");
            if (fp) {
                  if (fseek(fp, 0, SEEK_END) != 0) { // 将文件指针指向文件的最后
                        failedFlag = true;
                  }
            } else {
                  failedFlag = true;
            }
         
      ~BackwardLineReader() {
            if (fp) {
                  fclose(fp);
            }
      }
      bool readLine(std::string& result) {
            if (failedFlag) {
                  return false;
            }
            do {
                  int pos = findLastEndOfLinePos();      // 在缓存中查找最后一个换行符
                  if (pos >= 0) {  // 找到换行符,则返回换行符后的字符串
                        extractLineFromBuffer(result, pos + endOfLine.size());
                        buf.shrink(pos);        // 收缩缓存,去掉最后一个换行符及之后的数据 (十分高效,只需要修改结束位置即可)
                        return true;
                  }
            } while (readNextBlockFromFile()); // 如果缓存中查找不到换行符,倒序读取下一块数据

            if (buf.size() > 0 && currentReadFilePos == 0) {      // 处理文件正数第一行
                  extractLineFromBuffer(result, 0);             
                  buf.reset();                     
                  return true;
            }
            return false;
       
private:
      FILE* fp;
      std::string endOfLine;  // 换行符
      int fileSize; // 文件的大小
      int currentReadFilePos; // 当前读取文件块的开始位置(假设文件大小8,每次读取4,则:8->4->0)
      int singleReadFileBytes; // 单次读取的字节数,取值大的话可减少读取文件的次数
      int maxBufSize; // 注意:缓存的最大值不是maxBufSize,而是小于maxBufSize的两倍
      Buffer buf; // 文件数据的缓存
      bool failedFlag; // IO错误的Flag

      bool readNextBlockFromFile() {
            if (failedFlag || currentReadFilePos <= 0 || buf.size() > maxBufSize) {
                  return false; // IO错误 or 没有更多的数据块可以读取 or 缓存已超过最大值
            }
            int nextBlockSize = std::min(currentReadFilePos, singleReadFileBytes); // 下个数据块的大小
            Buffer newBuf(nextBlockSize + buf.size()); // 新缓存包括文件的下个数据块和目前缓存的剩余数据
            if (buf.size() > 0) {
                  ::memcpy((newBuf.get() + nextBlockSize), buf.get(), buf.size()); // 将目前缓存中的剩余数据拷贝到新缓存的尾部                 
            }
            if (fseek(fp, (nextBlockSize * -1), SEEK_CUR) != 0) { // 将文件指针往前移
                  failedFlag = true;
                  return false;
            }
            if (fread(newBuf.get(), 1, nextBlockSize, fp) != nextBlockSize) { // 读取文件的下个数据块
                  failedFlag = true;
                  return false;
            }
            if (fseek(fp, (nextBlockSize * -1), SEEK_CUR) != 0) { // 再次将文件指针往前移(因为读取数据块将文件指针往后移了)
                  failedFlag = true;
                  return false;
            }
            currentReadFilePos -= nextBlockSize;
            buf = newBuf;
            return true;
      }
      int findLastEndOfLinePos() { // 类似字符串lastIndexOf 的功能,没啥好说的
            for (int i = buf.size() - endOfLine.size(); i >= 0; -- i) {
                  bool matchFlag = true;
                  for (size_t j = 0; j < endOfLine.size(); ++ j) {
                        if (buf[i + j] != endOfLine[j]) {
                              matchFlag = false;
                              break;
                        }
                  }
                  if (matchFlag) {
                        return i; // 找到换行符
                  }
            }
            return -1; // 未找到
      }
      void extractLineFromBuffer(std::string& result, int lineStartPos) {
              // 从缓存指定开始位置抽取一行(缓存结束就是行末)
            int lineLength = buf.size() - lineStartPos;
            buffer_t line(lineLength + 1); // 构造一个以0结尾的字符串,拷贝数据
            line[line.size() - 1] = 0; 
            ::memcpy(line.get(), (buf.get() + lineStartPos), lineLength);
            result = line.get();
      }
};
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值