KRBY-CSDN博客

转载 JDBC - 在MyJDBCUtils中加入update(String sql , Object[] args)方法

1、在在MyJDBCUtils中加入update(String sql , Object[] args)的方法,用于更新数据库中的记录信息2、update(String sql , Object[] args)方法,根据传进来的sql语句和参数去跟新数据库表的记录,增加了update(String sql , Object[] args)的MyJDBCUtils如下package com.jdbc.dao; import java.sql.Connection;import java.s.

2022-02-28 17:30:55 398

原创 Hudi - 资料整理

github：GitHub - apache/hudi: Upserts, Deletes And Incremental Processing on Big Data.资料整理：GitHub - leesf/hudi-resources: 汇总Apache Hudi相关资料中文教程：https://github.com/apachecn/hudi-doc-zhDemo：https://github.com/leesf/hudi-demos...

2022-02-22 14:17:25 907

转载 SparkStreaming - 使用Mysql/Redis手动维护Kafka Offset

Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器，而是创建输入流直接从Kafka 集群节点拉取消息。输入流保证每个消息从Kafka 集群拉取以后只完全转换一次，保证语义一致性。但是当作业发生故障或重启时，要保障从当前的消费位点去处理数据(即Exactly Once语义)，单纯的依靠SparkStreaming本身的机制是不太理想的，生产环境中通常借助手动管理offset的方式来维护kafka的消费位点。本文分享将介绍如何手动管理Kafka

2022-02-21 18:30:33 730

转载 Flink - 源码阅读笔记(八种分区策略)

Flink包含8中分区策略，这8中分区策略(分区器)分别如下面所示，本文将从源码的角度一一解读每个分区器的实现方式。 GlobalPartitioner ShufflePartitioner RebalancePartitioner RescalePartitioner BroadcastPartitioner ForwardPartitioner KeyGroupStreamPartitioner CustomPartitione

2022-02-21 16:51:20 306

转载离线数仓 - 拉链表

历史拉链表是一种数据模型，主要是针对数据仓库设计中表存储数据的方式而定义的。所谓历史拉链表，就是指记录一个事物从开始一直到当前状态的所有变化信息。拉所有记录链表可以避免按每一天存储造成的海量存储问题，同时也是处理缓慢变化数据的一种常见方式。应用场景现假设有如下场景：一个企业拥有5000万会员信息，每天有20万会员资料变更，需要在数仓中记录会员表的历史变化以备分析使用，即每天都要保留一个快照供查询，反映历史数据的情况。在此场景中，需要反映5000万会员的历史变化，如果保留快照，存储两年就需要2X365

2022-02-21 16:46:27 356

原创 Hive - 常用sql整理

一、实现13位时间戳转毫秒时间类型select concat(t,".",substring(1611231717343,11,13))from( select from_unixtime(cast(substring(1611231717343,0,10) as bigint),'yyyy-MM-dd HH:dd:ss') as t)tmp;

2022-01-28 16:32:13 2020

原创 Flink - 源码阅读笔记(主节点JobManager启动分析)

一、JobManager三大核心组件Flink 主从架构：主节点： JobManager + 从节点： TaskManagerJobManager 是 Flink 集群的主节点，它包含三大重要的组件：1、ResourceManager Flink的集群资源管理器，只有一个，关于slot的管理和申请等工作，都由他负责2、Dispatcher 负责接收用户提交的 JobGragh, 然后启动一个 JobMaster，类似于 YARN 集群中的 AppMaster 角色 ...

2022-01-11 09:08:31 1122

原创 Flink - 源码阅读笔记(集群启动脚本分析)

Flink 集群的启动脚本在：flink-dist 子项目中，位于 flink-bin 下的 bin 目录启动脚本为：start-cluster.sh该脚本会首先调用 config.sh 来获取 masters 和 workers，masters 的信息，是从 conf/masters 配置文件中获取的， workers 是从 conf/workers 配置文件中获取的。然后分别:1、通过 jobmanager.sh 来启动 JobManager2、通过 taskmanager.sh 来启.

2022-01-11 08:27:33 865

原创 Flink - 源码阅读笔记(RPC 详解)

大数据技术栈中的技术组件非常丰富，大致总结一下各大常见组件的 RPC 实现技术：技术组件 RPC 实现 Hadoop NIO + Protobuf HBase HBase-2.x 以前：NIO + ProtoBuf HBase-2.x 以后：Netty ZooKeeper BIO + NIO + Netty Spark Spark-1.x 基于 Akka Spark-2.x 基于 Netty Flink

2022-01-11 07:23:54 1083

qq_34735235的博客