自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 JDBC - 在MyJDBCUtils中加入update(String sql , Object[] args)方法

1、在在MyJDBCUtils中加入update(String sql , Object[] args)的方法,用于更新数据库中的记录信息2、update(String sql , Object[] args)方法,根据传进来的sql语句和参数去跟新数据库表的记录,增加了update(String sql , Object[] args)的MyJDBCUtils如下package com.jdbc.dao; import java.sql.Connection;import java.s.

2022-02-28 17:30:55 386

原创 Hudi - 资料整理

github:GitHub - apache/hudi: Upserts, Deletes And Incremental Processing on Big Data.资料整理:GitHub - leesf/hudi-resources: 汇总Apache Hudi相关资料中文教程:https://github.com/apachecn/hudi-doc-zhDemo:https://github.com/leesf/hudi-demos...

2022-02-22 14:17:25 879

转载 SparkStreaming - 使用Mysql/Redis手动维护Kafka Offset

Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器,而是创建输入流直接从Kafka 集群节点拉取消息。输入流保证每个消息从Kafka 集群拉取以后只完全转换一次,保证语义一致性。但是当作业发生故障或重启时,要保障从当前的消费位点去处理数据(即Exactly Once语义),单纯的依靠SparkStreaming本身的机制是不太理想的,生产环境中通常借助手动管理offset的方式来维护kafka的消费位点。本文分享将介绍如何手动管理Kafka

2022-02-21 18:30:33 691

转载 Flink - 源码阅读笔记(八种分区策略)

Flink包含8中分区策略,这8中分区策略(分区器)分别如下面所示,本文将从源码的角度一一解读每个分区器的实现方式。 GlobalPartitioner ShufflePartitioner RebalancePartitioner RescalePartitioner BroadcastPartitioner ForwardPartitioner KeyGroupStreamPartitioner CustomPartitione

2022-02-21 16:51:20 272

转载 离线数仓 - 拉链表

历史拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的。所谓历史拉链表,就是指记录一个事物从开始一直到当前状态的所有变化信息。拉所有记录链表可以避免按每一天存储造成的海量存储问题,同时也是处理缓慢变化数据的一种常见方式。应用场景现假设有如下场景:一个企业拥有5000万会员信息,每天有20万会员资料变更,需要在数仓中记录会员表的历史变化以备分析使用,即每天都要保留一个快照供查询,反映历史数据的情况。在此场景中,需要反映5000万会员的历史变化,如果保留快照,存储两年就需要2X365

2022-02-21 16:46:27 316

原创 Hive - 常用sql整理

一、实现13位时间戳转毫秒时间类型select concat(t,".",substring(1611231717343,11,13))from( select from_unixtime(cast(substring(1611231717343,0,10) as bigint),'yyyy-MM-dd HH:dd:ss') as t)tmp;

2022-01-28 16:32:13 2008

原创 Flink - 源码阅读笔记(主节点JobManager启动分析)

一、JobManager三大核心组件Flink 主从架构: 主节点: JobManager + 从节点: TaskManagerJobManager 是 Flink 集群的主节点,它包含三大重要的组件:1、ResourceManager Flink的集群资源管理器,只有一个,关于slot的管理和申请等工作,都由他负责2、Dispatcher 负责接收用户提交的 JobGragh, 然后启动一个 JobMaster, 类似于 YARN 集群中的 AppMaster 角色 ...

2022-01-11 09:08:31 1061

原创 Flink - 源码阅读笔记(集群启动脚本分析)

Flink 集群的启动脚本在:flink-dist 子项目中,位于 flink-bin 下的 bin 目录启动脚本为:start-cluster.sh该脚本会首先调用 config.sh 来获取 masters 和 workers,masters 的信息,是从 conf/masters 配置文件中获取的, workers 是从 conf/workers 配置文件中获取的。然后分别:1、通过 jobmanager.sh 来启动 JobManager2、通过 taskmanager.sh 来启.

2022-01-11 08:27:33 847

原创 Flink - 源码阅读笔记(RPC 详解)

大数据技术栈中的技术组件非常丰富,大致总结一下各大常见组件的 RPC 实现技术:技术组件 RPC 实现 Hadoop NIO + Protobuf HBase HBase-2.x 以前:NIO + ProtoBuf HBase-2.x 以后:Netty ZooKeeper BIO + NIO + Netty Spark Spark-1.x 基于 Akka Spark-2.x 基于 Netty Flink

2022-01-11 07:23:54 1042

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除