一种大文件的排序方法

最新推荐文章于 2022-04-24 09:23:13 发布

林文

最新推荐文章于 2022-04-24 09:23:13 发布

阅读量6.6k

点赞数 1

本文链接：https://blog.csdn.net/liminyu/article/details/8271193

版权

要求：一个文件中存有若干单词，每行一个，要求将文件中的单词按字典序排序。

分析：由于一个文件的大小可能超过内存大小，因此想要一次将整个文件全部读入内存后再进行排序是不现实的。当然，处理此问题可以采用归并法：把大文件拆分成多个可以一次读入内存的小文件，再对小文件进行排序后再归并。不过在此介绍另一种方法：以“磁盘空间”换内存空间，在文件内部进行冒泡排序。

算法思路：读取文件中的第1、2两个单词，若第1个比第2个大，则交换两个单词在文件中的位置，将单词直接写回文件。再读出第3个单词，并比较第2、3个单词的大小，依次类推。这样第1轮排序后最大的一个单词就到了文件的末尾，n-1轮后整个文件就排序完成了。实现代码如下：

void SortFile(FILE* fp, unsigned int wordNum, unsigned int maxWordLen)
{
 long curWordPos, nextWordPos;
 char * curWord = (char*)malloc(maxWordLen+2);
 char * nextWord = (char*)malloc(maxWordLen+2);
 int err;
 assert(curWord != NULL && nextWord != NULL);

 for(unsigned int i = 0; i < wordNum-1; i++)
 {
  curWordPos=0;
  err = fseek(fp, curWordPos,SEEK_SET);
  assert(!err);

  fgets(curWord, maxWordLen, fp);
  for(unsigned int j = i; j < wordNum-1; j++)
  {
  nextWordPos = curWordPos+strlen(curWord);
  err = fseek(fp, nextWordPos,SEEK_SET);
  assert(!err);

  fgets(nextWord, maxWordLen, fp);
  if(StringCompare(curWord, nextWord) > 0)
  {
  err = fseek(fp, curWordPos,SEEK_SET);
  assert(!err);

  curWordPos += strlen(nextWord);
  fputs(nextWord,fp);
  fputs(curWord,fp);
  }
  else
  {
  curWordPos += strlen(curWord);
  strcpy(curWord, nextWord);
  }
  } 
 }

 free(curWord);
 free(nextWord);
}

在使用此函数前，应该能方便的获取到文件中单词的个数（wordNum）以及文件中最长的单词的长度（maxWordLen）。在文件中某个具体位置进行读写操作需要用到fseek函数。此外，打开文件时需要以读写方式打开（fopen时参数为使用"r+"）。打开文件前需要设置文件读写模式为二进制方式（调用_set_fmode(_O_BINARY)）避免C函数库将”/r/n”进行合并。

既然是以“磁盘空间”换内存空间，那么效率会不会降低？答案是不会！了解文件系统的操作原理就会明白，在进行文件读写时，fputs实际上是将文件内容写到了系统内存空间，仍然是在内存中进行操作。因此将此方法称作以系统内存空间换用户内存空间应该更加准确！而且此方法在用户内存空间只用到了两个单词大小的内存，相反效率比归并算法还会更高！

林文

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
一种大文件的排序方法

要求：一个文件中存有若干单词，每行一个，要求将文件中的单词按字典序排序。分析：由于一个文件的大小可能超过内存大小，因此想要一次将整个文件全部读入内存后再进行排序是不现实的。当然，处理此问题可以采用归并法：把大文件拆分成多个可以一次读入内存的小文件，再对小文件进行排序后再归并。不过在此介绍另一种方法：以“磁盘空间”换内存空间，在文件内部进行冒泡排序。算法思路：读取文件中的第1、2两个单词，若
复制链接

扫一扫