CPP读取文件速度比较

转载 2012年08月03日 20:39:54
探寻C++最快的读取文件的方案
計算機技術
Add comments7,388 views

在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的,C++选手只能干着急。难道C++真的低Pascal一等吗?答案是不言而喻的。一个进阶的方法是把数据一下子读进来,然后再转化字符串,这种方法传说中很不错,但具体如何从没试过,因此今天就索性把能想到的所有的读数据的方式都测试了一边,结果是惊人的。

 竞赛中读数据的情况最多的莫过于读一大堆整数了,于是我写了一个程序,生成一千万个随机数到data.txt中,一共55MB。然后我写了个程序主干计算运行时间,代码如下:

View Code CPP
#include <ctime>
int main()
{
	int start = clock();
	//DO SOMETHING
	printf("%.3lf\n",double(clock()-start)/CLOCKS_PER_SEC);
}


最简单的方法就算写一个循环scanf了,代码如下:
View Code CPP
const int MAXN = 10000000;
 
int numbers[MAXN];
 
void scanf_read()
{
	freopen("data.txt","r",stdin);
	for (int i=0;i<MAXN;i++)
		scanf("%d",&numbers[i]);
}


可是效率如何呢?在我的电脑Linux平台上测试结果为2.01秒。接下来是cin,代码如下
View Code CPP
const int MAXN = 10000000;
 
int numbers[MAXN];
 
void cin_read()
{
	freopen("data.txt","r",stdin);
	for (int i=0;i<MAXN;i++)
		std::cin >> numbers[i];
}


出乎我的意料,cin仅仅用了6.38秒,比我想象的要快。cin慢是有原因的,其实默认的时候,cin与stdin总是保持同步的,也就是说这两种方法可以混用,而不必担心文件指针混乱,同时cout和stdout也一样,两者混用不会输出顺序错乱。正因为这个兼容性的特性,导致cin有许多额外的开销,如何禁用这个特性呢?只需一个语句std::ios::sync_with_stdio(false);,这样就可以取消cin于stdin的同步了。程序如下:
View Code CPP
const int MAXN = 10000000;
 
int numbers[MAXN];
 
void cin_read_nosync()
{
	freopen("data.txt","r",stdin);
	std::ios::sync_with_stdio(false);
	for (int i=0;i<MAXN;i++)
		std::cin >> numbers[i];
}


取消同步后效率究竟如何?经测试运行时间锐减到了2.05秒,与scanf效率相差无几了!有了这个以后可以放心使用cin和cout了。

接下来让我们测试一下读入整个文件再处理的方法,首先要写一个字符串转化为数组的函数,代码如下
View Code CPP
const int MAXS = 60*1024*1024;
char buf[MAXS];
 
void analyse(char *buf,int len = MAXS)
{
	int i;
	numbers[i=0]=0;
	for (char *p=buf;*p && p-buf<len;p++)
		if (*p == ' ')
			numbers[++i]=0;
		else
			numbers[i] = numbers[i] * 10 + *p - '0';
}


把整个文件读入一个字符串最常用的方法是用fread,代码如下:
View Code CPP
const int MAXN = 10000000;
const int MAXS = 60*1024*1024;
 
int numbers[MAXN];
char buf[MAXS];
 
void fread_analyse()
{
	freopen("data.txt","rb",stdin);
	int len = fread(buf,1,MAXS,stdin);
	buf[len] = '\0';
	analyse(buf,len);
}


上述代码有着惊人的效率,经测试读取这10000000个数只用了0.29秒,效率提高了几乎10倍!掌握着种方法简直无敌了,不过,我记得fread是封装过的read,如果直接使用read,是不是更快呢?代码如下:
View Code CPP
const int MAXN = 10000000;
const int MAXS = 60*1024*1024;
 
int numbers[MAXN];
char buf[MAXS];
 
void read_analyse()
{
	int fd = open("data.txt",O_RDONLY);
	int len = read(fd,buf,MAXS);
	buf[len] = '\0';
	analyse(buf,len);
}


测试发现运行时间仍然是0.29秒,可见read不具备特殊的优势。到此已经结束了吗?不,我可以调用Linux的底层函数mmap,这个函数的功能是将文件映射到内存,是所有读文件方法都要封装的基础方法,直接使用mmap会怎样呢?代码如下:
View Code CPP
const int MAXN = 10000000;
const int MAXS = 60*1024*1024;
 
int numbers[MAXN];
char buf[MAXS];
void mmap_analyse()
{
	int fd = open("data.txt",O_RDONLY);
	int len = lseek(fd,0,SEEK_END);
	char *mbuf = (char *) mmap(NULL,len,PROT_READ,MAP_PRIVATE,fd,0);	
	analyse(mbuf,len);
}


经测试,运行时间缩短到了0.25秒,效率继续提高了14%。到此为止我已经没有更好的方法继续提高读文件的速度了。回头测一下Pascal的速度如何?结果令人大跌眼镜,居然运行了2.16秒之多。程序如下:
View Code PASCAL
const
	MAXN = 10000000;
var
	numbers :array[0..MAXN] of longint;
	i :longint;
begin
	assign(input,'data.txt');
	reset(input);
	for i:=0 to MAXN do
		read(numbers[i]);
end.


为确保准确性,我又换到Windows平台上测试了一下。结果如下表:方法/平台/时间(秒)
         Linux gcc    Windows mingw  Windows VC2008
scanf      2.010       3.704          3.425
cin	  6.380	    64.003	  19.208
cin取消同步2.050	    6.004	  19.616
fread	  0.290      0.241	  0.304
read	  0.290	    0.398	  不支持
mmap	  0.250	    不支持	  不支持
Pascal read	    2.160	  4.668	


从上面可以看出几个问题
Linux平台上运行程序普遍比Windows上快。
Windows下VC编译的程序一般运行比MINGW(MINimal Gcc for Windows)快。
VC对cin取消同步与否不敏感,前后效率相同。反过来MINGW则非常敏感,前后效率相差8倍。
read本是linux系统函数,MINGW可能采用了某种模拟方式,read比fread更慢。
Pascal程序运行速度实在令人不敢恭维。

希望此文能对大家有所启发,欢迎与我继续讨论。

BYVoid原创 转载请注明



C++文件读写详解(ofstream,ifstream,fstream)

在看C++编程思想中,每个练习基本都是使用ofstream,ifstream,fstream,以前粗略知道其用法和含义,在看了几位大牛的博文后,进行整理和总结: 这里主要是讨论fstream...
  • kingstar158
  • kingstar158
  • 2011年10月10日 16:33
  • 491032

探索C++最快的读取文件的方案

http://www.byvoid.com/blog/fast-readfile/   http://blog.csdn.net/jifengszf/article/details/3886802...
  • yaxf999
  • yaxf999
  • 2012年04月24日 16:37
  • 6230

C/C++文件操作效率比较——FILE/fstream

利用GetTickTount函数进行效率测试,对比C/C++在读写文本文件和二进制文件时耗时大小,程序执行时间获取方式参见我另一篇C/C++获取程序执行时间的五种方式比较。 电脑配置如下...
  • shudaxia123
  • shudaxia123
  • 2016年01月11日 18:13
  • 2034

CPP读取文件速度比较

[cpp] view plain copy 探寻C++最快的读取文件的方案   計算機技術   Add comments7,388 views      在竞赛中...
  • Hk_john
  • Hk_john
  • 2017年05月06日 19:36
  • 201

fopen()、fwrite()、fread()函数使用说明与示例

fopen()函数: 1.作用: 在C语言中fopen()函数用于打开指定路径的文件,获取指向该文件的指针。 2.函数原型: FILE * fopen(const char * path,const ...
  • yang2011079080010
  • yang2011079080010
  • 2016年09月13日 18:21
  • 35584

c++ 利用内存映射读取大文件

由于用到的txt存放的数据有几十万行,用getline来读取文件非常慢,搜索了一下可以来优化读取文件的方法。 据说用内存映射读取文件速度快,试了一下,但是发现要分行处理数据时,速度还是挺慢的。 有关内...
  • KUAILE123
  • KUAILE123
  • 2013年09月05日 17:16
  • 3906

C语言的FILE*读取文件比CFile要快的原因分析

// CFile file; // if(!file.Open(BinName, CFile::modeCreate | CFile::modeWrite | CFile::typeBinary)...
  • qq_23992597
  • qq_23992597
  • 2016年06月29日 10:57
  • 803

c cpp字符串比较

http://www.cnblogs.com/MuyouSome/archive/2013/06/08/3127828.html 在C中,并没有字符串这个数据类型,而是使用字符数组来...
  • Edmund_G
  • Edmund_G
  • 2016年12月15日 12:54
  • 967

cpp不区分大小写比较字符串string

int StrCaseCmp(const string & stra , const string & strb) { int aLen = stra.length(); int bLen = s...
  • realxie
  • realxie
  • 2012年02月21日 18:15
  • 5544

字符串写入文件 C++ 读文件 将文件内容读入到字符串string中

字符串写入文件   :https://zhidao.baidu.com/question/558706893.html 示例:#include #include using namespac...
  • tianzhijiaozi19
  • tianzhijiaozi19
  • 2017年05月12日 22:08
  • 1731
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:CPP读取文件速度比较
举报原因:
原因补充:

(最多只允许输入30个字)