在某些时候,我们需要从文本中读取最后几行。这时候如果采用基于流的文件读取方式,在文件大的时候效率十分低下,因为要把整个文本读取一遍才能定位到最后几行。本文提供的实现采用逐块回退读取文件数据的方式,提供快速且内存可控的反向逐行读取功能。上代码吧:
class BackwardLineReader
{
public:
// 指定文件路径、换行符、每次读取的字节数、最大的缓存大小(用于避免由于一直没有读到换行,导致内存无限增大)
BackwardLineReader(const std::string& filePath, const std::string& endOfLine_, int singleReadFileBytes_ = 4096, int maxBufSize_ = 4096)
: fp(NULL)
, endOfLine(endOfLine_)
, fileSize(0)
, currentReadFilePos(0)
, singleReadFileBytes(singleReadFileBytes_)
, maxBufSize(maxBufSize_)
, failedFlag(false)
{
XASSERT(endOfLine.size() > 0 && singleReadFileBytes > 0 && maxBufSize > 0);
fileSize = FileUtil::getFileSize(filePath);
// 获取文件的大小
if (fileSize <= 0) {
failedFlag = true;
return;
}
currentReadFilePos = fileSize;
fp = fopen(filePath.c_str(), "rb");
if (fp) {
if (fseek(fp, 0, SEEK_END) != 0) { // 将文件指针指向文件的最后
failedFlag = true;
}
} else {
failedFlag = true;
}
}
~BackwardLineReader() {
if (fp) {
fclose(fp);
}
}
bool readLine(std::string& result) {
if (failedFlag) {
return false;
}
do {
int pos = findLastEndOfLinePos();
// 在缓存中查找最后一个换行符
if (pos >= 0) {
// 找到换行符,则返回换行符后的字符串
extractLineFromBuffer(result, pos + endOfLine.size());
buf.shrink(pos);
// 收缩缓存,去掉最后一个换行符及之后的数据 (十分高效,只需要修改结束位置即可)
return true;
}
} while (readNextBlockFromFile()); // 如果缓存中查找不到换行符,倒序读取下一块数据
if (buf.size() > 0 && currentReadFilePos == 0) {
// 处理文件正数第一行
extractLineFromBuffer(result, 0);
buf.reset();
return true;
}
return false;
}
private:
FILE* fp;
std::string endOfLine;
// 换行符
int fileSize; // 文件的大小
int currentReadFilePos; // 当前读取文件块的开始位置(假设文件大小8,每次读取4,则:8->4->0)
int singleReadFileBytes; // 单次读取的字节数,取值大的话可减少读取文件的次数
int maxBufSize; // 注意:缓存的最大值不是maxBufSize,而是小于maxBufSize的两倍
Buffer buf; // 文件数据的缓存
bool failedFlag; // IO错误的Flag
bool readNextBlockFromFile() {
if (failedFlag || currentReadFilePos <= 0 || buf.size() > maxBufSize) {
return false; // IO错误 or 没有更多的数据块可以读取 or 缓存已超过最大值
}
int nextBlockSize = std::min(currentReadFilePos, singleReadFileBytes); // 下个数据块的大小
Buffer newBuf(nextBlockSize + buf.size()); // 新缓存包括文件的下个数据块和目前缓存的剩余数据
if (buf.size() > 0) {
::memcpy((newBuf.get() + nextBlockSize), buf.get(), buf.size()); // 将目前缓存中的剩余数据拷贝到新缓存的尾部
}
if (fseek(fp, (nextBlockSize * -1), SEEK_CUR) != 0) { // 将文件指针往前移
failedFlag = true;
return false;
}
if (fread(newBuf.get(), 1, nextBlockSize, fp) != nextBlockSize) { // 读取文件的下个数据块
failedFlag = true;
return false;
}
if (fseek(fp, (nextBlockSize * -1), SEEK_CUR) != 0) { // 再次将文件指针往前移(因为读取数据块将文件指针往后移了)
failedFlag = true;
return false;
}
currentReadFilePos -= nextBlockSize;
buf = newBuf;
return true;
}
int findLastEndOfLinePos() { // 类似字符串lastIndexOf 的功能,没啥好说的
for (int i = buf.size() - endOfLine.size(); i >= 0; -- i) {
bool matchFlag = true;
for (size_t j = 0; j < endOfLine.size(); ++ j) {
if (buf[i + j] != endOfLine[j]) {
matchFlag = false;
break;
}
}
if (matchFlag) {
return i; // 找到换行符
}
}
return -1; // 未找到
}
void extractLineFromBuffer(std::string& result, int lineStartPos) {
// 从缓存指定开始位置抽取一行(缓存结束就是行末)
int lineLength = buf.size() - lineStartPos;
buffer_t line(lineLength + 1); // 构造一个以0结尾的字符串,拷贝数据
line[line.size() - 1] = 0;
::memcpy(line.get(), (buf.get() + lineStartPos), lineLength);
result = line.get();
}
};