Luckyforever%--CSDN博客

创作者激励计划需要计算用户收益。目前，由开发人员在测试环境中使用假数据进行测试，数仓中完成计算并通过消息或接口反馈结果。为了解决这些问题，我们组内沟通后决定尝试将数据同步至Hologres中。这样开发人员可以直接读表，Hologres作为 HSAP 数据库，不仅支持分析和线上服务，其性能也优于 MySQL。

2024-08-20 17:00:22 590

原创 MaxCompute 中 Filter 与 Where 之间的差异

通过对比这两个SQL查询的执行计划，我们可以清楚地看到WHERE和FILTER子句在数据处理流程中的不同之处：WHERE子句：在数据聚合之前执行，用于过滤原始数据行。它在聚合操作之前就将不符合条件的数据行排除掉。FILTER子句：在数据聚合之后执行，用于过滤聚合结果。它在聚合操作之后根据条件对聚合结果进行筛选。理解这两者的执行顺序和作用，对于编写高效的SQL查询至关重要。在实际应用中，选择合适的过滤方式可以显著提高查询性能和结果的准确性。

2024-08-20 12:50:46 509

原创 Hive 绝技：求解最大连续快充次数问题

随着电动汽车的普及，越来越多的用户开始使用电动汽车。为了更好地了解用户的充电行为，我们需要对充电记录进行分析。假设我们有一张记录电瓶车充电记录的表，其中包含了用户ID、充电时间和充电类型（快充或慢充）。通过分析这些数据，我们可以了解用户的充电习惯，从而优化充电站的布局和服务。uid10011000100110011011101110101011在这张表中，uid表示用户ID，表示充电时间，表示充电类型（1表示快充，0表示慢充）。现在我们需要计算每个用户连续快充的最大次数。

2024-08-16 16:19:12 668

原创 Flink 之 TopN 以及窗口TopN

在Flink中，TopN计算是指从数据流中选取前N个元素，通常根据某个指标进行排序。TopN计算可以在全局范围内进行，也可以在窗口内进行。窗口TopN计算是指在特定的时间窗口或计数窗口内进行TopN计算。这些操作在实时数据分析、监控和推荐系统中非常常见。

2024-08-13 16:48:41 466

原创 Flink 之级联窗口计算

在 Flink 中，级联窗口是指多个窗口之间存在包含或重叠关系的数据处理模式。它允许我们在不同的时间范围内对数据进行聚合和分析。简单来说，就是将数据流分割成多个时间段（窗口）来处理，这些窗口可以是嵌套的，也可以是重叠的。想象一下，我们有一个实时数据流，包含用户的点击数据。我们可能希望在不同的时间粒度上进行分析，比如每分钟、每小时和每天的点击量统计。级联窗口允许我们同时进行这些不同时间粒度的统计，而不需要多次遍历数据，这样可以复用中间计算结果，避免重复消费数据。

2024-08-09 11:28:35 835

原创 Flink 之滚动窗口/滑动窗口/会话窗口/OVER窗口

数据处理方式流式计算：数据是连续不断地到达的，OVER窗口函数会在数据流中实时地计算窗口结果。每当新数据到达时，窗口计算会实时更新。批计算：数据是一次性读取并处理的，OVER窗口函数会在整个数据集上一次性计算窗口结果。所有数据都读取完毕后，窗口计算才会开始。计算延迟流式计算：适用于需要低延迟、实时更新的场景。计算结果会随着数据的到达实时更新。批计算：适用于数据量较大、对计算延迟要求不高的场景。计算结果在所有数据读取完毕后一次性计算。状态管理流式计算：需要持续管理状态，因为数据是不断到达的。

2024-08-05 18:09:11 1387