自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小王是个弟弟

https://kpretty.tech

  • 博客(59)
  • 资源 (3)
  • 收藏
  • 关注

原创 Hive-因精度丢失导致的 join 数据异常

这篇文章介绍了Hive在处理join操作时由于精度丢失导致的数据异常问题。作者通过实例展示了在join操作中,即使两个join key明显不相等,Hive也可能将其匹配,这是因为Hive在执行计划中默认会对不同类型的key进行UDFToDouble转换,导致精度丢失。文章指出了这个问题,并提出了需要从执行计划的角度去理解和解决这类问题。

2024-05-31 14:22:07 504

原创 一种解决全局代理在终端不生效的方法

这篇文章介绍了解决在终端中全局代理不生效的方法。作者在使用实时流式SQL平台时遇到了下载速度极慢的问题,尽管他的Mac上开启了全局代理。他发现终端使用的网络配置与系统的全局代理设置是分开的,因此需要在终端中单独配置代理。作者给出了将代理配置封装成alias的方法,方便控制终端是否使用全局代理。经过配置后,他再次尝试下载时速度明显提升。

2024-05-17 14:58:21 684

原创 TTL——管理 clickhouse 数据的生命周期

这篇文章介绍了ClickHouse数据库中数据的生命周期管理,特别是使用TTL工具来删除、移动和聚合数据。文章首先讨论了如何删除数据,包括删除整行数据、带条件的删除以及删除指标列。然后,探讨了如何将数据移动到其他表或卷中。接下来,讲述了数据的聚合和改变压缩方式。文章解释了TTL工具的工作原理,它如何在DDL子句中配置以自动完成后台的数据删除任务。文章还展示了如何通过在DDL中添加TTL策略来自动删除过期数据,并说明了TTL策略可以支持where子句来指定删除特定记录的条件。最后,指出ClickHouse允许

2024-05-17 14:55:09 1473

原创 clickhouse 随心所欲的聚合模型-AggregatingMergeTree

随心所欲的聚合

2024-02-28 16:18:58 1116

原创 构建 hive 时间维表

告别 hive 繁琐的时间处理

2023-10-31 21:54:56 800

原创 clickhouse 删除操作

clickhouse 也可以进行优雅删除

2023-08-09 21:33:38 2636

原创 clickhouse查询缓存

clickhouse极致的查询用户体验

2023-08-01 11:04:25 1536

原创 clickhouse分布式查询降级为本地查询

clickhouse 分布式查询降级为本地查询问题排查

2023-07-27 15:26:22 805

原创 Flink Watermark 源码分析

对 Flink Watermark 的粗浅之见

2023-05-15 20:36:15 667 1

原创 kafka client for go

使用 sarama 开发 go 的 kafka client

2023-05-06 13:47:17 1918 1

原创 从 Hadoop 到云原生,大数据平台如何做存算分离

Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变;随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造。

2023-03-18 18:06:17 1216

原创 当参数调优无法解决kafka消息积压时可以这么做

如何快速处理kafka的消息积压

2023-03-01 18:50:52 706

原创 成为 Seatunnel 源码贡献者保姆级教程

为 Seatunnel 贡献代码必须要了解的细节

2023-02-16 15:51:27 2214

原创 编译型语言的Docker镜像构建小技巧

如何构建小而安全的docker镜像

2023-01-29 16:09:40 556

原创 Rust智能指针

什么是智能指针?智能指针智能在何处?

2022-12-12 15:18:30 921

原创 聊一聊我的第一个开源项目

🎉🎉基于docker一站式hadoop集群管理,使用rust构建hdd客户端管理容器全生命周期

2022-12-01 12:19:38 490

原创 flink on k8s

基于 kubeshpere 的 flink on k8s 实践

2022-08-04 18:02:43 4504 5

原创 拓展 hive 权限功能

实现 hiveserver2 用户名密码登录功能

2022-07-21 17:38:42 995

原创 kafka producer 源码解析

从未有过如此详细的kafka源码解析-生产者篇

2022-07-14 19:10:30 1468

翻译 ClickHouse 物化视图

物化视图可在大量节点上很好地扩展,并适用于大型数据集,极大提高查询速率

2022-06-28 11:40:40 6570 2

原创 Java NIO 有着一篇足够入门

万字图文,一篇带你入门 NIO,绝对精彩,干货满满

2022-06-26 17:34:08 322

原创 akka for java

akka for java 入门第一步,通过 akka 模拟 flink 的心跳检测

2022-06-19 18:35:57 1297

原创 拓展kafka功能:删除指定时间之前的数据

拓展kafka删除功能 by timestamp

2022-06-19 12:23:50 1979

原创 Flink 任务到底需要多少个 Slot

flink 是如何计算一个任务的 task slots 消耗,涉及概念:数据流图、算子链、slot共享

2022-05-03 20:04:27 4533

原创 实现 kafka 消费者的动态订阅

在消费者线程不安全的前提下实现多线程动态增减消费者的订阅

2022-04-17 14:17:24 4046 1

原创 手写 kafka 异步回调

教你实现一个简单的 kafka 异步回调功能

2022-04-17 14:15:26 2866 1

原创 记一次kafka线上事故

kafka无限重复消费,导致数据严重积压

2022-04-17 14:11:43 2501 1

原创 Hive 源码解析三:Analyze

解析 hive 如何将sql转换为mr任务并对其优化

2022-03-17 11:18:41 2752

原创 Hive 源码解析二:AST

解析 hive 如何将 sql 转换为抽象语法树

2022-03-17 11:17:27 3753

原创 Hive 源码解析一:Driver

解析hive的命令行客户端如何处理sql文

2022-03-17 11:16:44 2870

原创 即席查询-Kylin

即席查询之预处理方案的代表

2022-03-17 11:15:01 8423

原创 Docker 实战

利用docker搭建一个三节点hadoop集群

2022-03-17 11:13:57 280

原创 Docker

docker从入门到实战呀

2022-03-17 11:12:05 930

原创 Kafka 安全认证及权限控制

作者:wjun平台:MacOS版本:Kafka 2.4.1 、Zookeeper 3.6.2一、Zookeeper 配置 SASL若只关注 kafka 的安全认证,不需要配置 Zookeeper 的 SASL,但 kafka 会在 zk 中存储一些必要的信息,因此 zk 的安全认证也会影响到 kafka ????????????1.1 新建 zoo_jaas.conf 文件zoo_jaas.conf文件名、文件所在路径没有特殊要求,一般放置在${ZOOKEEPER_HOME}/conf目录下

2021-07-20 18:12:20 9985 2

原创 hive之事务表

hive 事务表

2021-05-14 14:53:43 3513

原创 大数据离线数仓常用组件安装汇总

离线数仓常用大数据组件安装教程,定制化、高可用需求按需配置,该文档仅保证组件正常运行

2021-02-23 15:35:31 722

原创 数据结构之栈

数据模拟栈;栈实现计算器

2021-02-05 18:12:07 199 1

原创 数据结构之队列

队列

2021-01-28 16:47:47 467 3

原创 数据结构之稀疏数组

稀疏数组

2021-01-28 10:37:18 834 1

原创 记一次线上MySQL数据归档方案

记一次线上MySQL数据归档方案

2020-12-30 09:54:50 2422

大数据安装包最新版下[2020/6/25].zip

hadoop-3.2.1 zookeeper-3.6.1 scala-2.13.2 spark-3.0.0-preview2-bin-hadoop-3.2 jdk-11.0.7 flume-1.9.0 hbase-2.2.5 hive-2.3.7 azkaban-3.90.0 kafka-2.13-2.50 Oozie-5.2.0 sqoop-1.4.7-bin-hadoop-2.6.0 sqoop-1.4.7

2020-06-25

大数据最新安装包上[2020/6/25].zip

hadoop-3.2.1 zookeeper-3.6.1 scala-2.13.2 spark-3.0.0-preview2-bin-hadoop-3.2 jdk-11.0.7 flume-1.9.0 hbase-2.2.5 hive-2.3.7 azkaban-3.90.0 kafka-2.13-2.50 Oozie-5.2.0 sqoop-1.4.7-bin-hadoop-2.6.0 sqoop-1.4.7

2020-06-25

Java基础知识.xmind

javase基础总结思维导图,包含:基础语法、面向对象、集合、常用类、异常、多线程、IO、高级特性、jdk1.8新特性、JVM原理、设计模式

2020-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除