- 博客(59)
- 资源 (3)
- 收藏
- 关注
原创 Hive-因精度丢失导致的 join 数据异常
这篇文章介绍了Hive在处理join操作时由于精度丢失导致的数据异常问题。作者通过实例展示了在join操作中,即使两个join key明显不相等,Hive也可能将其匹配,这是因为Hive在执行计划中默认会对不同类型的key进行UDFToDouble转换,导致精度丢失。文章指出了这个问题,并提出了需要从执行计划的角度去理解和解决这类问题。
2024-05-31 14:22:07 504
原创 一种解决全局代理在终端不生效的方法
这篇文章介绍了解决在终端中全局代理不生效的方法。作者在使用实时流式SQL平台时遇到了下载速度极慢的问题,尽管他的Mac上开启了全局代理。他发现终端使用的网络配置与系统的全局代理设置是分开的,因此需要在终端中单独配置代理。作者给出了将代理配置封装成alias的方法,方便控制终端是否使用全局代理。经过配置后,他再次尝试下载时速度明显提升。
2024-05-17 14:58:21 684
原创 TTL——管理 clickhouse 数据的生命周期
这篇文章介绍了ClickHouse数据库中数据的生命周期管理,特别是使用TTL工具来删除、移动和聚合数据。文章首先讨论了如何删除数据,包括删除整行数据、带条件的删除以及删除指标列。然后,探讨了如何将数据移动到其他表或卷中。接下来,讲述了数据的聚合和改变压缩方式。文章解释了TTL工具的工作原理,它如何在DDL子句中配置以自动完成后台的数据删除任务。文章还展示了如何通过在DDL中添加TTL策略来自动删除过期数据,并说明了TTL策略可以支持where子句来指定删除特定记录的条件。最后,指出ClickHouse允许
2024-05-17 14:55:09 1473
原创 从 Hadoop 到云原生,大数据平台如何做存算分离
Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变;随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造。
2023-03-18 18:06:17 1216
原创 Flink 任务到底需要多少个 Slot
flink 是如何计算一个任务的 task slots 消耗,涉及概念:数据流图、算子链、slot共享
2022-05-03 20:04:27 4533
原创 Kafka 安全认证及权限控制
作者:wjun平台:MacOS版本:Kafka 2.4.1 、Zookeeper 3.6.2一、Zookeeper 配置 SASL若只关注 kafka 的安全认证,不需要配置 Zookeeper 的 SASL,但 kafka 会在 zk 中存储一些必要的信息,因此 zk 的安全认证也会影响到 kafka ????????????1.1 新建 zoo_jaas.conf 文件zoo_jaas.conf文件名、文件所在路径没有特殊要求,一般放置在${ZOOKEEPER_HOME}/conf目录下
2021-07-20 18:12:20 9985 2
大数据安装包最新版下[2020/6/25].zip
2020-06-25
大数据最新安装包上[2020/6/25].zip
2020-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人