处理1亿个数据以找出最大的前100个

最新推荐文章于 2024-07-10 21:37:49 发布

wddblog

最新推荐文章于 2024-07-10 21:37:49 发布

阅读量1.1k

点赞数 27

分类专栏： java 文章标签： java 算法数据结构

本文链接：https://blog.csdn.net/wddblog/article/details/137436634

版权

java 专栏收录该内容

57 篇文章 1 订阅

订阅专栏

部分排序法（Partial Sorting）：

使用一个最小堆（min-heap）来存储最大的100个数。
遍历所有的数据，对于每个数据，如果它大于堆顶的元素，则删除堆顶元素并将该数据插入堆中。
遍历完成后，堆中的元素即为最大的100个数。

时间复杂度：O(n log k)，其中n是数据总数，k是堆的大小（在这个例子中是100）。

import java.util.PriorityQueue;  
  
public class TopKElements {  
    public static void main(String[] args) {  
        // 假设我们有一个包含大量数据的数组  
        int[] data = generateRandomData(10000000); // 生成1亿个随机数据作为示例  
        int k = 100; // 我们想要找出最大的100个数  
  
        // 使用部分排序法找出最大的k个数  
        int[] topK = findTopK(data, k);  
  
        // 打印结果  
        System.out.println("Top " + k + " elements:");  
        for (int num : topK) {  
            System.out.print(num + " ");  
        }  
    }  
  
    // 生成随机数据的辅助方法  
    private static int[] generateRandomData(int size) {  
        int[] data = new int[size];  
        for (int i = 0; i < size; i++) {  
            data[i] = (int) (Math.random() * 1000000); // 生成0到999999之间的随机数  
        }  
        return data;  
    }  
  
    // 找出数组中最大的k个数的方法  
    private static int[] findTopK(int[] data, int k) {  
        // 创建一个最小堆，大小为k  
        PriorityQueue<Integer> minHeap = new PriorityQueue<>(k);  
  
        // 遍历数组，将元素添加到堆中  
        for (int num : data) {  
            if (minHeap.size() < k) {  
                minHeap.offer(num); // 当堆的大小小于k时，直接添加元素  
            } else if (num > minHeap.peek()) {  
                minHeap.poll(); // 移除堆顶元素（当前最小的元素）  
                minHeap.offer(num); // 添加新的较大元素  
            }  
        }  
  
        // 将堆中的元素放入数组中并返回  
        int[] topK = new int[k];  
        for (int i = k - 1; i >= 0; i--) {  
            topK[i] = minHeap.poll(); // 注意要从大到小取出元素，因为堆顶是最小的  
        }  
        return topK;  
    }  
}

快速选择法（QuickSelect）：
- 类似于快速排序的分区过程，但只关注包含最大元素的分区。
- 选择一个基准值，将数据分为两部分：大于基准的和小于基准的。
- 如果大于基准的部分的大小大于100，递归地在该部分寻找最大的100个数；如果小于100，则还需要从小于基准的部分中补充剩余的数。
- 时间复杂度：平均情况下为O(n)，但在最坏情况下可能达到O(n^2)。通过随机选择基准值可以降低最坏情况发生的概率。

import java.util.Random;  
  
public class QuickSelect {  
    private static final Random RANDOM = new Random();  
  
    public static void main(String[] args) {  
        int[] data = generateRandomData(1000000); // 生成100万个随机数据作为示例  
        int k = 100; // 我们想要找出第100大的数（即最大的100个数中的最小数）  
  
        // 使用快速选择法找出第k大的元素  
        int kthLargest = quickSelect(data, 0, data.length - 1, k);  
  
        System.out.println("The " + k + "th largest element is: " + kthLargest);  
    }  
  
    // 生成随机数据的辅助方法  
    private static int[] generateRandomData(int size) {  
        int[] data = new int[size];  
        for (int i = 0; i < size; i++) {  
            data[i] = RANDOM.nextInt(1000000); // 生成0到999999之间的随机数  
        }  
        return data;  
    }  
  
    // 快速选择法的主方法  
    private static int quickSelect(int[] nums, int left, int right, int k) {  
        if (left == right) {  
            return nums[left]; // 如果只有一个元素，直接返回它  
        }  
  
        int pivotIndex = partition(nums, left, right); // 对数组进行分区  
  
        if (k == pivotIndex + 1) {  
            return nums[pivotIndex]; // 如果分区索引恰好是第k个元素，直接返回它  
        } else if (k < pivotIndex + 1) {  
            return quickSelect(nums, left, pivotIndex - 1, k); // 如果第k大的元素在左分区，递归查找左分区  
        } else {  
            return quickSelect(nums, pivotIndex + 1, right, k - pivotIndex - 1); // 如果第k大的元素在右分区，递归查找右分区  
        }  
    }  
  
    // 快速选择法的分区过程，类似于快速排序的分区  
    private static int partition(int[] nums, int left, int right) {  
        int pivot = nums[right]; // 选择最右边的元素作为基准值  
        int i = left - 1; // 指向小于基准值的元素的最后一个位置  
  
        for (int j = left; j < right; j++) {  
            if (nums[j] > pivot) { // 注意这里是找第k大的元素，所以使用大于号  
                i++;  
                swap(nums, i, j);  
            }  
        }  
  
        swap(nums, i + 1, right); // 将基准值放到正确的位置  
        return i + 1; // 返回基准值的索引  
    }  
  
    // 交换数组中两个元素的辅助方法  
    private static void swap(int[] nums, int i, int j) {  
        int temp = nums[i];  
        nums[i] = nums[j];  
        nums[j] = temp;  
    }  
}

外部排序：
- 如果数据太大无法一次性加载到内存，可以考虑使用外部排序的方法。
- 将数据分成多个块，对每个块进行排序，并找出每个块中的最大100个数。
- 然后合并这些最大数，并找出其中的前100个。
- 这需要磁盘I/O和排序算法的结合使用。
使用数据库：
- 如果这些数据存储在数据库中，可以利用数据库的排序和查询功能。
- 使用ORDER BY和LIMIT语句来直接查询最大的100个数。
- 数据库系统通常针对这类操作进行了优化，可能比自己编写算法更高效。
使用分布式计算：
- 如果数据量特别大，且硬件资源充足，可以考虑使用分布式计算框架（如Apache Spark）来处理。
- 将数据分布到多个节点上，每个节点处理一部分数据并找出其中的最大数。
- 然后收集这些最大数，并进行全局排序以找出最大的100个数。