大数据小内存排序

需求:有一个很大的文件需要对内容进行排序(ps:内容可简单理解为数字),如何在有限的内存下进行排序,内存很小。
分析:
1.文件很大我们需要分而治之,分为若干文件
2.内存小,划分小文件的时候要注意,文件内容应该可以足够放入内存
3.拆分小文件的时候,对改文件内容进行排序(ps:非本文章重点故省略)
4.对有序的文件进行归并排序

以上就是大致的思路,下面直接上代码,代码略有粗糙,各位看客包涵,同时希望您提出宝贵的建议

package a;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;

public class SplitSort {
    private final static int SORT_BUF_LEN = 128;
    private final static int MAX_BUF_INDEX = SORT_BUF_LEN-1;
    private final static int FILE_COUNT = 8;

    public static void main(String[] args) {
        start();
//      createFile();
    }

    public static void start() {
        int[] sortbuf = new int[SORT_BUF_LEN];
        int curIndex = 0;
        BufferedReader[] read = new BufferedReader[FILE_COUNT];
        ArrayList<Sort> list = new ArrayList<Sort>();
        initFile(read);
        initSortList(read, list);
        curIndex = sort(sortbuf, curIndex, read, list);
    }

    private static int sort(int[] sortbuf, int curIndex, BufferedReader[] read,
            ArrayList<Sort> list) {
        while (true) {
            findMinAndReplace(sortbuf, curIndex, read, list);
            if (curIndex == MAX_BUF_INDEX) {
                curIndex = 0;
                System.out.println(Arrays.toString(sortbuf));
                if (list.size() < 1) {
                    break;
                }
            } else {
                curIndex++;
            }
        }
        return curIndex;
    }

    private static void initFile(BufferedReader[] read) {
        for (int i = 1; i < 9; i++) {
            File file = new File("d:\\" + i + ".txt");
            try {
                @SuppressWarnings("resource")
                BufferedReader bos = new BufferedReader(new FileReader(file));
                read[i - 1] = bos;
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
    private static void initWriteFile(BufferedWriter[] writer) {
        for (int i = 1; i < 9; i++) {
            File file = new File("d:\\" + i + ".txt");
            try {
                @SuppressWarnings("resource")
                BufferedWriter bos = new BufferedWriter(new FileWriter(file));
                writer[i - 1] = bos;
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    private static void findMinAndReplace(int[] sortbuf, int sortcur,
            BufferedReader[] read, ArrayList<Sort> list) {
        Collections.sort(list);
        Sort sort = list.get(0);
        sortbuf[sortcur] = sort.value;
        try {
            String readLine = read[sort.index].readLine();
            if (readLine != null && readLine.trim() != "") {
                sort.value = Integer.parseInt(readLine);
            } else {
                list.remove(0);
                read[sort.index].close();
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private static void initSortList(BufferedReader[] read, ArrayList<Sort> list) {
        for (int i = 0; i < read.length; i++) {
            try {
                list.add(new Sort(i, Integer.parseInt(read[i].readLine())));
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    public static void createFile() {
        try {
            BufferedWriter[] writers = new BufferedWriter[FILE_COUNT];
            initWriteFile(writers);
            for (int i = 1; i < 1025; i++) {
                int index = i%8;
                writers[index].append(i + "\r\n");
            }
            for (BufferedWriter bufferedWriter : writers) {
                bufferedWriter.close();
            }

        } catch (FileNotFoundException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    private static class Sort implements Comparable<Sort> {
        int index;
        int value;

        public Sort(int i, int readLine) {
            this.index = i;
            this.value = readLine;
        }

        @Override
        public int compareTo(Sort o) {
            return this.value > o.value ? 1 : -1;
        }

    }
}
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 大数据集合的排序常用的算法有以下几种: 1. 快速排序(QuickSort):是一种分治算法,通过递归不断把数据分成两个子集并对它们分别排序,最终得到有序数列。 2. 归并排序(MergeSort):也是一种分治算法,通过递归不断把数据分成两个子集,并对它们分别排序,最终通过归并两个子集得到有序数列。 3. 堆排序(HeapSort):是一种选择排序,通过建立大根堆或小根堆不断地找出最大(最小)的元素放到最后,得到有序数列。 4. 计数排序(CountingSort):是一种非比较排序算法,通过统计每个数值出现的次数来实现排序。 这些算法的具体适用情况及优劣势可以根据具体问题进行选择。 ### 回答2: 大数据集合排序可以使用多种算法,常见的有快速排序归并排序和堆排序。 1. 快速排序是一种高效的排序算法,它通过选择一个元素作为基准,将集合分成两个子集,并对子集进行递归排序。快速排序具有较好的平均和最坏情况下的性能,时间复杂度为O(nlogn)。 2. 归并排序是将集合划分为两个有序的子集,然后递归地将子集排序,并将两个有序子集合并成一个有序集合。归并排序具有稳定性和较好的最坏情况下的性能,时间复杂度为O(nlogn)。 3. 堆排序是通过构建一个最大堆或最小堆来排序集合。最大堆的根节点是集合中最大的元素,可以将其移动到最后一个位置,然后重新调整堆,得到次大元素。重复这个过程,直到集合有序。堆排序具有较好的最坏情况下的性能,时间复杂度为O(nlogn)。 以上是常见的算法,选择哪种算法取决于数据集的特点、排序要求以及性能要求。此外,还有其他算法如计数排序、基数排序和桶排序等,它们也可以用于大数据集合的排序。 ### 回答3: 大数据集合排序通常使用的算法是外部排序算法,其中最常用的是归并排序算法。 归并排序算法将数据集合划分为若干个较小的子集合,对每个子集合进行内部排序,然后将这些有序的子集合合并起来得到一个完整的有序集合。在大数据集合排序中,由于数据量巨大无法直接载入内存归并排序算法可以通过分批次处理数据,将数据分为较小的块,分别对每个块进行排序,之后再进行合并操作。归并排序算法的特点是稳定、适用于大规模数据集合的排序,并且具有较好的性能。 具体步骤如下: 1. 将大数据集合划分为适当大小的小块,每个小块可以载入内存进行内部排序。 2. 对每个小块使用内部排序算法(如快速排序、堆排序等)进行排序,得到有序的小块。 3. 依次将排序好的小块进行合并,采用归并排序算法的合并操作,得到一个完整有序的大数据集合。 归并排序算法的优势是可以处理大规模数据集合,并且具有较好的稳定性和扩展性,但由于需要多次磁盘读取和写入操作,速度相对较慢。因此,在实际应用中,还可以根据具体情况选择其他适合大数据排序的算法,例如外部快速排序、外部堆排序等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值