- 博客(17)
- 收藏
- 关注
原创 DtataWorks spark报错:Parse exception - full qualified name ‘xxx.`default`.tablename‘ is not supported
在平台上开发spark任务时,选择版本,Python language,配置如下:历史记录都是成功的,但是在2024-08-28在 MaxCompute 上升级存储之后就突然报错,而我升级的目的其实是想通过创建外部schema 来进行联邦查询,具体可见。
2024-09-03 15:37:51 557
原创 数仓之TABLESAMPLE采样
在日常工作中,我们会对表中记录随机抽样然后探查,如何进行抽样就是本章要讲的重点。数仓中的抽样方法有很多,这里主要介绍一下:随机抽样、块抽样、桶抽样、分组抽样这四种,话不多说,直接上干货。
2024-08-27 17:09:53 1355
原创 终于有人把DataWorks中数据质量、智能监控、数据推送说清楚了
总结一下,监控 表级/字段级完整性准确性有效性一致性唯一性和及时性等数据质量并且能够及时阻止脏数据进入下游选择DQC;监控具体任务资源运行状况选择智能监控,选择个性化推送某些轻量数据的选择数据推送。
2024-08-23 17:09:06 978
原创 DataWorks 离线同步数据至 Kafka 实操
以上就是完整的操作步骤,相信大家感受到实际操作非常简单便捷,阿里云生态建设的很完善,这极大地减轻了开发压力,有任何疑问欢迎大家在评论区留言。
2024-08-21 12:10:30 570
原创 Dataworks离线同步MaxCompute数据至Hologres案例
创作者激励计划需要计算用户收益。目前,由开发人员在测试环境中使用假数据进行测试,数仓中完成计算并通过消息或接口反馈结果。为了解决这些问题,我们组内沟通后决定尝试将数据同步至Hologres中。这样开发人员可以直接读表,Hologres作为 HSAP 数据库,不仅支持分析和线上服务,其性能也优于 MySQL。
2024-08-20 17:00:22 595
原创 MaxCompute 中 Filter 与 Where 之间的差异
通过对比这两个SQL查询的执行计划,我们可以清楚地看到WHERE和FILTER子句在数据处理流程中的不同之处:WHERE子句:在数据聚合之前执行,用于过滤原始数据行。它在聚合操作之前就将不符合条件的数据行排除掉。FILTER子句:在数据聚合之后执行,用于过滤聚合结果。它在聚合操作之后根据条件对聚合结果进行筛选。理解这两者的执行顺序和作用,对于编写高效的SQL查询至关重要。在实际应用中,选择合适的过滤方式可以显著提高查询性能和结果的准确性。
2024-08-20 12:50:46 509
原创 Hive 绝技:求解最大连续快充次数问题
随着电动汽车的普及,越来越多的用户开始使用电动汽车。为了更好地了解用户的充电行为,我们需要对充电记录进行分析。假设我们有一张记录电瓶车充电记录的表,其中包含了用户ID、充电时间和充电类型(快充或慢充)。通过分析这些数据,我们可以了解用户的充电习惯,从而优化充电站的布局和服务。uid10011000100110011011101110101011在这张表中,uid表示用户ID,表示充电时间,表示充电类型(1表示快充,0表示慢充)。现在我们需要计算每个用户连续快充的最大次数。
2024-08-16 16:19:12 670
原创 Flink 之 TopN 以及窗口TopN
在Flink中,TopN计算是指从数据流中选取前N个元素,通常根据某个指标进行排序。TopN计算可以在全局范围内进行,也可以在窗口内进行。窗口TopN计算是指在特定的时间窗口或计数窗口内进行TopN计算。这些操作在实时数据分析、监控和推荐系统中非常常见。
2024-08-13 16:48:41 472
原创 Flink 之 级联窗口计算
在 Flink 中,级联窗口是指多个窗口之间存在包含或重叠关系的数据处理模式。它允许我们在不同的时间范围内对数据进行聚合和分析。简单来说,就是将数据流分割成多个时间段(窗口)来处理,这些窗口可以是嵌套的,也可以是重叠的。想象一下,我们有一个实时数据流,包含用户的点击数据。我们可能希望在不同的时间粒度上进行分析,比如每分钟、每小时和每天的点击量统计。级联窗口允许我们同时进行这些不同时间粒度的统计,而不需要多次遍历数据,这样可以复用中间计算结果,避免重复消费数据。
2024-08-09 11:28:35 843
原创 Flink 之 滚动窗口/滑动窗口/会话窗口/OVER窗口
数据处理方式流式计算:数据是连续不断地到达的,OVER窗口函数会在数据流中实时地计算窗口结果。每当新数据到达时,窗口计算会实时更新。批计算:数据是一次性读取并处理的,OVER窗口函数会在整个数据集上一次性计算窗口结果。所有数据都读取完毕后,窗口计算才会开始。计算延迟流式计算:适用于需要低延迟、实时更新的场景。计算结果会随着数据的到达实时更新。批计算:适用于数据量较大、对计算延迟要求不高的场景。计算结果在所有数据读取完毕后一次性计算。状态管理流式计算:需要持续管理状态,因为数据是不断到达的。
2024-08-05 18:09:11 1446
原创 Flink 时间属性及 WATERMARK 水印
水位线的生成是一个基于事件时间的机制,主要目的是处理乱序数据,确保窗口计算的准确性。通过设定一个最大延迟时间,水位线可以有效地处理乱序事件,并在适当的时间点触发窗口计算。
2024-08-03 01:36:20 1162
原创 Hive 复杂数据类型之 STRUCT/MAP/JSON
在 Hive 中,除了常见的基本数据类型(如 INT、STRING、FLOAT 等),还支持一些特殊的数据类型,如 STRUCT、MAP 和 JSON,这些数据类型允许处理更复杂和嵌套的数据结构。
2024-08-02 00:27:30 557
原创 SQL实战之行列互转
以上就是3种行转列的方法,还有一种是生成 struct 结构的方式,在次我就不赘述了,实用性当然是第1种方便了,其他2种可以适当装个13。以上就是我介绍的2种列转行方式,建议大家使用第1种方式,主打一个快捷省事。
2024-07-09 20:04:59 1418 2
原创 FlinkSQL Regular Join之 Left Join
基本同样的代码,离线计算数据结果皆一致,但是流式Join中差距为何如此大,我的看法是V1中进行left join的主从表本质虽然是一张源表,但都是在筛选之后才进行的关联,筛选条件完全不同,就相当于生成2张完全不一样的临时表,左表是驱动表。
2024-07-08 22:47:23 1068 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人