堆排序 之实现数据流中的中位数

实现语言:Python3.9

题目来源:牛客

实现步骤:

  • 1、使用堆的方式实现,具体实现思路:我们把数据从中点位置分为两个部分,前一部分构建成大顶堆A,后一部分构建成小顶堆B(注意前半部分的数据小于后半部分的数据)
  • 2、先将数据添加到大顶堆中,然后取出大顶堆的堆顶元素,把堆顶元素添加到小顶堆中,这样做的目的是保证大顶堆中的数据全部小于小顶堆中的数据;
  • 3、然后平衡A和B的数据,如果A中的数据个数小于B那么就把B的堆顶元素取出放入到A中,总之就是需要保证len(A)>=len(B);
  • 4、这样如果len(A) > len(B),那么中点就是A部分的堆顶数据,如果len(A) == len(B) 那么中点就是A和B的堆顶数据和的一半。
import heapq
class Solution:
    min_heap = []
    max_heap = []

    # 构建大顶堆
    def my_max_heapify(self, it):
        max_heap_ = [(-x, x) for x in it]
        heapq.heapify(max_heap_)
        return [x for (_, x) in max_heap_]

    def Insert(self, num):
        # write code here
        # 先加入大顶堆中
        self.max_heap.append(num)
        # 构建大顶堆
        self.max_heap = self.my_max_heapify(self.max_heap)
        # 将大顶堆中的堆顶元素取出,放到小顶堆中
        heapq.heappush(self.min_heap, heapq.heappop(self.max_heap))
        # 再次构建大顶堆
        self.max_heap = self.my_max_heapify(self.max_heap)

        # 平衡两个堆中的元素数量
        # 如果大顶堆中的元素比小顶堆中的元素少,则将小顶堆的堆顶元素取出放到大顶堆。
        if len(self.max_heap) < len(self.min_heap):
            self.max_heap.append(heapq.heappop(self.min_heap))
            self.max_heap = self.my_max_heapify(self.max_heap)
        
    def GetMedian(self):
        # write code here
        # 如果大顶堆的元素比小顶堆的元素个数多,说明大顶堆的堆顶元素就是中间值
        if len(self.max_heap) > len(self.min_heap):
            middle = self.max_heap[0]
            return middle
        # 如果相等,则中间元素是大顶堆和小顶堆的堆顶元素
        else:
            a =  self.max_heap[0]
            b =  self.min_heap[0]
            return (a + b) / 2
  • 14
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
计算数据流中位数可以通过Flink的ProcessFunction来实现。 具体实现步骤如下: 1. 将数据流按照大小排序 2. 计算数据流的长度,如果是奇数,则中位数为第 (length+1)/2 个元素;如果是偶数,则中位数为第length/2个元素和第(length/2+1)个元素的平均值。 3. 在ProcessFunction的实现,可以使用状态变量来保存数据流的有序列表,并计算中位数。 以下是一个简单的示例代码: ```java public class MedianFunction extends ProcessFunction<Integer, Double> { private ListState<Integer> values; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); values = getRuntimeContext().getListState(new ListStateDescriptor<Integer>("values", Integer.class)); } @Override public void processElement(Integer value, Context ctx, Collector<Double> out) throws Exception { values.add(value); List<Integer> sortedValues = new ArrayList<>(); for (Integer v : values.get()) { sortedValues.add(v); } Collections.sort(sortedValues); int length = sortedValues.size(); if (length % 2 == 0) { double median = (sortedValues.get(length/2) + sortedValues.get(length/2 - 1)) / 2.0; out.collect(median); } else { double median = sortedValues.get(length/2); out.collect(median); } } } ``` 在上述代码,我们使用了ListState来保存数据流的元素,并在每次处理新元素时重新排序并计算中位数。注意,这只是一个简单的示例,实际应用需要考虑更多的问题,比如数据倾斜、数据丢失等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值