用C语言读取大文件的问题 内存映射

6 篇文章 0 订阅
本文介绍了一种使用内存映射文件技术提高大文件处理效率的方法。针对几十MB乃至GB级别的文件,传统的读写方式可能导致内存占用过高及IO瓶颈。通过创建文件映射对象,可以直接在内存中操作文件内容,无需加载整个文件到内存中,有效降低了内存消耗并提高了处理速度。
摘要由CSDN通过智能技术生成

Windows对文件的读写提供了很丰富的操作手段,如:
1. FILE *fp, fstearm...; (C/C++)
2. CFile, CStdioFile...; (MFC)
3. CreateFile, ReadFile...;(API)
...

在处理一般的文件(文本/非文本),这些足够了。然而在处理比较大的文件如
几十M, 几百M, 甚至上G的文件, 这时再用一般手段处理,系统就显的力不从心了

要把文件读出,再写进,耗费的是CPU利用率与内存以及IO的频繁操作。这显然是
令用户难以忍受的

为了解决这个吃内存,占CPU,以及IO瓶颈,windows核心编程提供了内存映射文件技术
(Maping File)

至于Maping File是什么原理,我不多说了,网上转载资源一箩筐,我只想从应用层
来考虑,怎样用这个技术,实现日常项目中的应用
举例来说:
可能项目中,会经常用到一些大量的常量,而这些大量常量用宏来替代写再源文件中
显然不可取,一般是写在文件中,给常量一些编号,通过编号来索引

一般文件比较小时候,常用做法也是先预读到内存中,毕竟从内存中读比从文件中读要快(IO操作的瓶颈)
比较好的做法,读到STL MAP 中去:
例如一个索引文件:
SEU07201213=汪洋中的一片叶子
JIANGSHENG=蒋晟
SEU07201214=CSDN
............
打开文件,解析=号,在解析方面有CString操作,strtok,strstr, boost 正则表达式匹配等等,但我比较喜欢
sscanf(szIndex, "%[^=]=%[^=]", sName, sValue);
sscanf(szIndex, "%[^=]=%s", sName, sValue);
fscanf(stream, "%[^=]=%[^=]", sName, sValue);
之类,
然后再定义一个map:
map<string, string> m_Map;
m_Map[sName] = sValue;

但是文件比较大的时候,笔者做过测试,用上面方法处理一个15M, 25万行的文本文件,占用内存非常
的高,达70多M,处理的速度也非常的慢,这还不包括回写到文件
这时,Maping File就派上用场了,这里处理大文件就抛弃了map的应用(因为容器占用很多内存)
而是直接利用字符指针来操作,不用其他封装,不多说了,请看示例:

#pragma warning(disable: 4786) 
#include <windows.h>
#include <stdio.h>
#include <iostream>
#include <string>

using namespace std;

string GetValue(const TCHAR *, const TCHAR *);  //根据name得value
void main(int argc, char* argv[])
{
    // 创建文件对象(C: est.tsr)
    HANDLE hFile = CreateFile("C:/test.tsr", GENERIC_READ | GENERIC_WRITE,
        0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL);
    if (hFile == INVALID_HANDLE_VALUE)
    ...{
        printf("创建文件对象失败,错误代码:%d ", GetLastError());
        return;
    }
    // 创建文件映射对象
    HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL);
    if (hFileMap == NULL)
    ...{
        printf("创建文件映射对象失败,错误代码:%d ", GetLastError());
        return;
    }
    // 得到系统分配粒度
    SYSTEM_INFO SysInfo;
    GetSystemInfo(&SysInfo);
    DWORD dwGran = SysInfo.dwAllocationGranularity;
    // 得到文件尺寸
    DWORD dwFileSizeHigh;
    __int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh);
    qwFileSize |= (((__int64)dwFileSizeHigh) << 32);
    // 关闭文件对象
    CloseHandle(hFile);
    // 偏移地址 
    __int64 qwFileOffset = 0;
    // 块大小
    DWORD dwBlockBytes = 1000 * dwGran;
    if (qwFileSize < 1000 * dwGran)
        dwBlockBytes = (DWORD)qwFileSize;
    if (qwFileOffset >= 0)
    ...{
        // 映射视图
        TCHAR *lpbMapAddress = (TCHAR *)MapViewOfFile(hFileMap,FILE_MAP_ALL_ACCESS, 
            0, 0,
            dwBlockBytes);
        if (lpbMapAddress == NULL)
        ...{
            printf("映射文件映射失败,错误代码:%d ", GetLastError());
            return;
        }

        
//-----------------------访问数据开始-------------------------
        cout<<GetValue(lpbMapAddress,"SEU07201213")<<endl;
        getchar();
//-----------------------访问数据结束-------------------------        
    
        // 撤销文件映像
        UnmapViewOfFile(lpbMapAddress);
    }
    // 关闭文件映射对象句柄
    CloseHandle(hFileMap);    
}
string GetValue(const TCHAR *lpbMapAddress, const TCHAR *sName)
{
   string sValue;  // 存放 = 后面的value值
  TCHAR *p1 = NULL, *p2 = NULL; // 字符指针
  if((p1 = strstr(lpbMapAddress,sName)) != NULL) // 查找sName出现位置
  {
   if(p2 = strstr(p1,"/r/n")) *p2 = '/0'; // 查找"/r/n"(换行)出现位置
   sValue = p1+strlen(sName)+strlen("="); // 指针移动"sName"+"="之后
   *p2 = '/r';  // 还原*p2值,因为不还原会改变原文件结构
  }
  return sValue;
}
...

以上实现了根据索引name匹配value的简单过程,经测试,同样25W行文件,匹配耗费1秒不到,且
不占本进程内存。
以上修改lpbMapAddress任意处值,也不需要重新回写到文件,真正是大大提高了文件读与写的效率

C语言中,可以使用pthread库来实现多线程操作,并使用mmap函数来实现内存映射文件。 下面给出一个简单的例子,展示如何使用多线程读取内存映射文件: ```c #include <stdio.h> #include <stdlib.h> #include <pthread.h> #include <sys/mman.h> #include <fcntl.h> #include <unistd.h> #define FILE_SIZE (1024*1024*1024*10LL) // 10GB #define THREAD_NUM 4 void *read_file(void *arg); int main() { int fd = open("test.txt", O_RDONLY); if (fd == -1) { perror("open failed"); exit(EXIT_FAILURE); } // 映射文件内存 char *mmap_ptr = mmap(NULL, FILE_SIZE, PROT_READ, MAP_PRIVATE, fd, 0); if (mmap_ptr == MAP_FAILED) { perror("mmap failed"); exit(EXIT_FAILURE); } // 创建多个线程读取文件 pthread_t threads[THREAD_NUM]; for (int i = 0; i < THREAD_NUM; i++) { int *arg = malloc(sizeof(int)); *arg = i; pthread_create(&threads[i], NULL, read_file, arg); } // 等待所有线程结束 for (int i = 0; i < THREAD_NUM; i++) { pthread_join(threads[i], NULL); } // 解除内存映射 munmap(mmap_ptr, FILE_SIZE); return 0; } void *read_file(void *arg) { int id = *(int *)arg; free(arg); long long chunk_size = FILE_SIZE / THREAD_NUM; long long offset = id * chunk_size; char *mmap_ptr = mmap(NULL, chunk_size, PROT_READ, MAP_PRIVATE | MAP_POPULATE, fd, offset); if (mmap_ptr == MAP_FAILED) { perror("mmap failed"); pthread_exit(NULL); } // 读取文件 for (long long i = 0; i < chunk_size; i++) { char c = mmap_ptr[i]; // TODO: process data } // 解除内存映射 munmap(mmap_ptr, chunk_size); pthread_exit(NULL); } ``` 在该例子中,首先将文件test.txt映射到内存中,然后创建多个线程分别读取不同的文件块。每个线程读取自己的文件块时,使用mmap函数将该文件块映射到内存中,并进行读取操作。最后,在所有线程读取完毕后,解除内存映射。 需要注意的是,在使用mmap函数映射文件时,应该考虑到文件大小的限制,避免一次性映射过大文件导致内存不足。同时,在进行多线程操作时,还应该注意线程同步和互斥问题,避免数据竞争和死锁等问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值