- 博客(63)
- 资源 (3)
- 收藏
- 关注
原创 ClickHouse-Kafka Engine 正确的使用方式
这篇文章介绍了ClickHouse-Kafka Engine的正确使用方法,包括基础使用和进阶使用。文中提到了如何优雅地处理解析错误数据和极限情况下的重复消费,同时对比了新的Kafka Engine和老引擎。文章指出,ClickHouse的Kafka表引擎能直接与Kafka系统对接,支持subscription of Kafka topic and real-time accepting message data。虽然ClickHouse在2024年9月3日之前不支持exactly once语义,但是在明确
2024-09-18 11:53:00 653
原创 HQL-计算不一样的 MUV
这篇文章介绍了HQL-计算不一样的MUV,主要讨论了每月独立访客数(Monthly Unique Visitors)的计算问题。文章提到,虽然计算MUV的指标本身很简答,但是在实际业务需求中,考虑数据的批量回刷和通用性,上述的SQL是不够的。文章通过示例展示了如何使用Python生成测试数据,并导入到Hive表中。同时,文章详细描述了历史数据每日的MUV计算逻辑,以及如何解决多窗口中的数据计算问题。
2024-09-18 11:49:47 347
原创 SparkSQL-优雅行列转换
这篇文章介绍了SparkSQL中行列转换的操作,包括传统方式和pivot与unpivot的使用。文章通过具体示例详细解释了如何利用SparkSQL进行行转列和列转行的操作,并强调了这些操作在报表生成、数据透视和多维度数据分析中的重要性。同时,文章也提到了pivot和unpivot在代码维护和可读性上的优势,以及它们在性能上的提升
2024-09-17 00:19:55 365 1
原创 三年 Sparker 都不一定知道的算子内幕
这篇文章介绍了Spark中一些不为人知的内部细节和操作。首先,文章探讨了如何在mapPartitions操作中正确释放资源,其次比较了reduceByKey和groupByKey的区别,接着讨论了Spark中全局有序性的问题,然后介绍了多种rePartition操作,最后讲述了广播变量的多种实现方式。文章通过具体的案例和伪代码,深入剖析了这些问题,并提出了解决方案。
2024-09-17 00:17:00 1190
原创 Hive-因精度丢失导致的 join 数据异常
这篇文章介绍了Hive在处理join操作时由于精度丢失导致的数据异常问题。作者通过实例展示了在join操作中,即使两个join key明显不相等,Hive也可能将其匹配,这是因为Hive在执行计划中默认会对不同类型的key进行UDFToDouble转换,导致精度丢失。文章指出了这个问题,并提出了需要从执行计划的角度去理解和解决这类问题。
2024-05-31 14:22:07 524
原创 一种解决全局代理在终端不生效的方法
这篇文章介绍了解决在终端中全局代理不生效的方法。作者在使用实时流式SQL平台时遇到了下载速度极慢的问题,尽管他的Mac上开启了全局代理。他发现终端使用的网络配置与系统的全局代理设置是分开的,因此需要在终端中单独配置代理。作者给出了将代理配置封装成alias的方法,方便控制终端是否使用全局代理。经过配置后,他再次尝试下载时速度明显提升。
2024-05-17 14:58:21 869
原创 TTL——管理 clickhouse 数据的生命周期
这篇文章介绍了ClickHouse数据库中数据的生命周期管理,特别是使用TTL工具来删除、移动和聚合数据。文章首先讨论了如何删除数据,包括删除整行数据、带条件的删除以及删除指标列。然后,探讨了如何将数据移动到其他表或卷中。接下来,讲述了数据的聚合和改变压缩方式。文章解释了TTL工具的工作原理,它如何在DDL子句中配置以自动完成后台的数据删除任务。文章还展示了如何通过在DDL中添加TTL策略来自动删除过期数据,并说明了TTL策略可以支持where子句来指定删除特定记录的条件。最后,指出ClickHouse允许
2024-05-17 14:55:09 1720
原创 从 Hadoop 到云原生,大数据平台如何做存算分离
Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变;随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造。
2023-03-18 18:06:17 1243
原创 Flink 任务到底需要多少个 Slot
flink 是如何计算一个任务的 task slots 消耗,涉及概念:数据流图、算子链、slot共享
2022-05-03 20:04:27 4596
原创 Kafka 安全认证及权限控制
作者:wjun平台:MacOS版本:Kafka 2.4.1 、Zookeeper 3.6.2一、Zookeeper 配置 SASL若只关注 kafka 的安全认证,不需要配置 Zookeeper 的 SASL,但 kafka 会在 zk 中存储一些必要的信息,因此 zk 的安全认证也会影响到 kafka ????????????1.1 新建 zoo_jaas.conf 文件zoo_jaas.conf文件名、文件所在路径没有特殊要求,一般放置在${ZOOKEEPER_HOME}/conf目录下
2021-07-20 18:12:20 10063 2
大数据安装包最新版下[2020/6/25].zip
2020-06-25
大数据最新安装包上[2020/6/25].zip
2020-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人