自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

http://www.54tianzhisheng.cn/

坑要一个个填,路要一步步走!我的新博客地址:http://www.54tianzhisheng.cn?csdn

  • 博客(732)
  • 资源 (14)
  • 收藏
  • 关注

原创 Flink 源码解析

1、Flink 源码解析 —— 源码编译运行2、Flink 源码解析 —— 项目结构一览3、Flink 源码解析—— local 模式启动流程4、Flink 源码解析 —— standalone session 模式启动流程5、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Job Manager 启动6、Flink 源码解析 —— ...

2019-06-08 13:48:24 1284 1

原创 Flink 全网最全资源(视频、博客、PPT、入门、原理、实战、性能调优、源码解析、问答等持续更新)

Flink 学习https://github.com/zhisheng17/flink-learning麻烦路过的各位亲给这个项目点个 star,太不易了,写了这么多,算是对我坚持下来的一种鼓励吧!http://www.54tianzhisheng.cn/2019/12/31/Flink-resources/本项目结构博客1、Flink 从0到1学习 —— Apache Flink...

2019-06-02 18:23:26 7748 6

转载 全端覆盖的国产黑科技太强了,支持 HarmonyOS NEXT!

今天来谈谈小程序技术。相信说到小程序,大部分人的第一反应,可能是微信小程序、支付宝小程序。确实,以前小程序这种生态只有巨头才玩的起。记得较早前微信、支付宝、抖音等一窝风引入小程序技术,我个人并不看好,总结成一句话“不太好上手”,WXML、WXSS、新的架构、新的规则、新的文档,不管对于开发者来说还是对于公司来讲“成本”是实实在在的门槛。但现在来看,由于小程序第三方架构的普及,以及小程序具备开发简单...

2024-03-22 14:36:03 186

原创 Apache Paimon 文件管理

管理小文件许多用户关注小文件问题,可能导致以下情况:稳定性问题:HDFS 中如果存在太多小文件的话会导致 NameNode 压力过大成本问题:在 HDFS 中,每个小文件都会占用至少一个数据块的大小,例如 128 MB查询效率:查询过多小文件会影响查询效率理解 Checkpoint假设你正在使用 Flink Writer,每个 Checkpoint 会生成 1 ~ 2 个 snapshot,并且 ...

2024-02-19 09:16:09 1194

原创 Apache Paimon 文件操作

本文旨在澄清不同文件操作对文件的影响。本页面提供具体示例和实用技巧,以有效地管理这些操作。此外,通过对提交(commit)和压实(compact)等操作的深入探讨,我们旨在提供有关文件创建和更新的见解。前提对以下几篇有了解:1、Apache Paimon 介绍2、Apache Paimon 基础概念3、Apache Paimon 文件布局设计4、知道如何在 Flink 中使用 Paimon创建 c...

2024-02-04 20:21:58 1695

原创 Apache Paimon 文件布局设计

Apache Paimon 介绍Apache Paimon 基础概念一张表的所有文件都存储在一个基本目录下,Paimon 文件以分层方式组织。从快照文件开始,可以递归地访问表中的所有记录。image.pngSnapshot Files所有的 snapshot 文件都存储在 snapshot 目录下,snapshot file 是一个包含了 snapshot 信息的 JSON 文件:使用的 Sche...

2024-02-01 09:32:57 1643

原创 Apache Paimon 基础概念

Snapshot快照(Snapshot)是在某个时间点上捕捉表状态的方式。用户可以通过最新的快照访问表的最新数据。通过时间回溯,用户还可以通过较早的快照访问表的先前状态。privatestaticfinalStringFIELD_VERSION="version";privatestaticfinalStringFIELD_ID="id";privatestatic...

2024-01-31 09:16:30 513

原创 Apache Paimon 介绍

从 Flink Table Store 演进而来Flink table store架构如下图:(和今天 Paimon 的架构相比,Log System 不再被推荐使用,Lake Store 的能力大幅强于 Log System,除了延时)2021 年 9 月,发布了 0.2 版本,陆续有在生产使用。Flink Table Store 是一个数据湖存储,用于实时流式 Changelog 写入 (比如...

2024-01-29 20:15:23 1764

原创 如何收集 Yarn/K8s 集群中的 Flink 任务日志?

背景不管是 Flink On Yarn 还是 On k8s,如果任务正常运行,我们是可以通过 Flink Web UI 去查看 JobManager 和 TaskManager 日志,虽然日志量大的时候去不同的 TaskManager 找日志有点困难(如何快速知道日志在哪个 TaskManager 上;在 TaskManager 里面可能有多个滚动的日志文件,如何快速找到 root cause 异常;如果 TaskManager OOM 掉了该容器的日志就看不到了),但是起码给了一个可以看日志的途径。熟

2023-03-24 14:26:26 732 1

原创 如何收集 Yarn/K8s 集群中的 Flink 任务日志?

背景不管是 Flink On Yarn 还是 On k8s,如果任务正常运行,我们是可以通过 Flink Web UI 去查看 JobManager 和 TaskManager 日志,虽然日志量大的时候去不同的 TaskManager 找日志有点困难(如何快速知道日志在哪个 TaskManager 上;在 TaskManager 里面可能有多个滚动的日志文件,如何快速找到 root cause 异...

2023-03-17 09:06:46 486

原创 关闭 Flink Checkpoint,引发 P3 故障

记录一个比较有意义的故障,没遇到的可以避坑,已经被坑过的只能握手????了。背景因阿里云提示机器有故障,会在第二天早高峰自动重启,按照之前运维操作,提前做好通知后,在集群非高峰期将机器踢出集群。踢出集群时该机器上运行的 TaskManager Pod 会挂掉,Flink 会在其他正常机器上申请新的 TaskManager 运行,期间会有任务的 failover。操作后 10 来分钟看到公司大群有值班同事...

2022-11-10 09:11:01 1130

转载 Flink 中的 EventTimeTrigger 和 ProcessingTimeTrigger 详解

EventTimeTriggerEventTimeTrigger 的触发完全依赖 watermark,换言之,如果 stream 中没有 watermark,就不会触发 EventTimeTrigger。watermark 之于事件时间就是如此重要,来看一下 watermark 的定义先~Watermarks 是某个 event time 窗口中所有数据都到齐的标志。Watermarks 作为数据...

2022-11-03 09:11:11 970

转载 重磅!Apache Flink 1.16 发布在即!众多新特性全面解读!

Apache Flink 继续快速发展,是 Apache 中最活跃的社区之一。Flink 1.16 有超过 230 名贡献者热情参与,完成了 19 个 FLIP 和 900+ 个问题,为社区带来了许多令人兴奋的功能。Flink 已经成为流处理的主角和事实标准,流批处理统一的概念正在逐渐获得认可,并在越来越多的公司中成功实施。此前,流批一体的概念更强调统一的API和统一的计算框架。今年,基于此,Fl...

2022-10-12 09:11:07 3042

转载 如何从0开始参与一个开源项目?

今天我准备和你详细介绍如何开始参与开源项目,帮助你在 GitHub 上完成第一个 PR 的合入。当然,除了正常的 PR 合入流程之外,我还准备详细介绍一下如果一个 PR 提交后遇到了冲突、需要追加 commits、需要合并 commits 等等相对复杂问题该如何解决。—1—为什么要参与开源项目本文我不打算长篇大论“为什么要参与开源”,详细介绍参与开源项目的收获,我想仅...

2022-08-01 09:01:39 2283

转载 现代数据架构选型:Data Fabric、Data Mesh

数据架构总是在更新迭代的路上,以使其快速适应变化的数据环境,更为敏捷和规模化地给业务部门交付数据。在传统的数据架构中,存在数据复杂度高、缺乏敏捷性、不便于协作、数据和一致性可解释性低下等问题。这些挑战阻碍了企业迈向数据驱动型企业的道路,也难以实现快速响应业务需求。在寻求最佳数据架构的过程中,Data Fabric 和 Data Mesh 常常被关注到,这两者乍一看很相似,...

2022-07-21 18:02:24 524

转载 官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目!

全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于美国时间 2022 年 6 月 16日 宣布,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)。以下内容译自 Apache Doris 官网(https://doris.apache.org/),点击“...

2022-06-17 11:49:13 434

转载 7000字,详解仓湖一体架构!

全文共7110个字,建议阅读15分钟在了解湖仓一体化之前,我们先来看一则有关数据仓库的有趣故事吧~沃尔玛拥有世界上最大的数据仓库系统,它利用数据挖掘方法对交易数据进行分析后发现"跟尿布一起购买最多的商品竟是啤酒!后来经过大量实际调查和分析,发现在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒,这是因为美国的太太们常叮...

2022-05-26 09:11:17 1042 1

转载 K8s 集群稳定性评估与大规模基础服务部署调优

【云原生】一文细数kubernetes常见20道问题彻底搞懂 K8S Pod Pending 故障原因及解决方案Kubernetes 架构核心点详细总结!顶级的Kubernetes日志监控工具Kubernetes 集群需要重点关注的 6 个指标如何优雅的限制 Kubernetes 节点上运行的 Pod 数量容器与Pod到底有什么区别和联系?如何调试Kubernetes集群...

2022-05-24 09:11:03 924

转载 【云原生】一文细数kubernetes常见20道问题

1、K8S是什么?2、容器和主机部署应用的区别是什么?3、K8S架构的组成是什么?4、kubenetes针对pod资源对象的健康监测机制5、如何控制滚动更新过程?6、镜像下载策略是什么?7、image的状态有哪些?8、pod的重启策略是什么?9、K8S中部署应用版本回滚的命令10、标签和标签选择器的作用是什么?11、常用的标签分类有哪些?12、查看标签的方式?13、添加、...

2022-05-21 19:31:34 290

原创 Flink Table Store ——从计算到存储提升流批统一端到端用户体验

该项目用于在 Flink 中为流处理和批处理构建动态表,支持超大流量的数据提取和及时的数据查询。注意:该项目仍处于 beta 状态,正在快速发展,不建议直接在生产环境中使用它。Flink Table Store 介绍在过去的几年里,得益于 Flink 社区众多的贡献者和用户,Apache Flink 已经成为最好的分布式计算引擎之一,尤其是在大规模有状态流处理方面。然而,...

2022-05-12 09:01:00 4154

原创 Flink Iceberg Source 并行度推断源码解析

Flink Hive Source 并行度推断源码解析批读 IcebergIceberg 提供了两个配置:publicstaticfinalConfigOption<Boolean>TABLE_EXEC_ICEBERG_INFER_SOURCE_PARALLELISM=ConfigOptions.key("table.exec.iceberg....

2022-05-11 09:11:00 735

原创 Flink Hive Source 并行度推断源码解析

批读 HiveHiveOptions 中有两个配置publicstaticfinalConfigOption<Boolean>TABLE_EXEC_HIVE_INFER_SOURCE_PARALLELISM=key("table.exec.hive.infer-source-parallelism")...

2022-05-10 09:11:00 801

转载 Fastjson 2 来了,性能继续提升,还能再战十年

FASTJSON 2.0是FASTJSON项目的重要升级,目标是为下一个十年提供一个高性能的JSON库,同一套API支持JSON/JSONB两种协议,JSONPath是一等公民,支持全量解析和部分解析,支持Java服务端、客户端Android、大数据场景。FASJTONS2代码 https://github.com/alibaba/fastjson2/releases/t...

2022-04-23 09:19:09 441

转载 彻底搞懂 K8S Pod Pending 故障原因及解决方案

即使在高成熟度级别 Kubernetes 集群中 pod pending 也是无处不在。如果您随机询问任何使用 Kubernetes DevOps 工程师来确定折磨他们噩梦的最常见错误,pod pending 可能是非常常见的问题(可能仅次于 CrashLoopBackOff)。尝试推送更新并看到它卡住会使 DevOps 紧张。即使解决方案相当简单,找到 pod 挂起的原...

2022-04-22 09:01:00 506

转载 Apache kudu在网易的实践

导读:Kudu作为一款新型分布式系统,能够实现在数据快速读写的同时,提供媲美HDFS顺序扫描的性能,是对大数据生态的补充,是构建实时数仓的一款利器。我们把kudu深度集成进了网易有数大数据平台,用来支持和构建网易云音乐和网易传媒的实时数据仓库。本次分享的主要内容是网易在使用kudu的一些实践经验。 ...

2022-04-19 09:03:49 351 1

转载 开源大数据OLAP引擎最佳实践

本篇内容将通过六个部分来介绍开源大数据OLAP引擎最佳实践。一、开源OLAP综述二、开源数仓解决方案三、ClickHouse介绍四、StarRocks介绍五、Trino介绍六、客户案例01开源OLAP综述如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHous...

2022-04-18 09:11:00 629

转载 Kubernetes 架构核心点详细总结!

顶级的Kubernetes日志监控工具Kubernetes 集群需要重点关注的 6 个指标如何优雅的限制 Kubernetes 节点上运行的 Pod 数量容器与Pod到底有什么区别和联系?如何调试Kubernetes集群中的网络延迟问题新手必须知道的 Kubernetes 架构如何提高 Flink K8s 集群资源利用率?目录:一个目标:容器操作两地三中心四层服务发现五种...

2022-04-15 09:02:00 338

转载 顶级的Kubernetes日志监控工具

Kubernetes 主导着容器编排市场,推动企业向微服务演进。微服务的每个实例都会生成大量日志事件,这些事件很快就会变得难以管理。但更复杂的是,当问题发生时,服务和故障模式之间的复杂交互使得很难找到根本原因。潜在的问题使 Kubernetes 日志管理工具变得非常重要。企业总是试图找到合适的工具来满足他们的需求,并使监控、日志记录和故障分析变得高效和快速。Zebrium...

2022-04-13 09:01:00 251

转载 Kubernetes 集群需要重点关注的 6 个指标

如何提高 Flink K8s 集群资源利用率?新手必须知道的 Kubernetes 架构如何调试Kubernetes集群中的网络延迟问题如今行业中的公司似乎分为两个 Kubernetes 阵营:那些已经大量使用它来处理生产工作负载的公司,以及那些正在将其工作负载迁移到其中的公司。Kubernetes 的问题在于它不像 Redis RabbitMQ 或 PostgreSQL...

2022-04-11 09:01:00 415

转载 如何优雅的限制 Kubernetes 节点上运行的 Pod 数量

如何调试Kubernetes集群中的网络延迟问题新手必须知道的 Kubernetes 架构如何提高 Flink K8s 集群资源利用率?1Node节点默认的 Pod 数量Kubernetes Node节点每个默认允许最多创建110个Pod,有时可能会由于系统硬件的问题,从而需要控制Node节点的Pod的运行数量。即:需要调整Node节点的最大可运行Pod数量。一般来说,我...

2022-04-10 12:26:57 412

转载 容器与Pod到底有什么区别和联系?

容器本可以成为轻量级虚拟机的替代品。但是,由于 Docker/OCI 的标准化,最广泛使用的容器形式是每个容器只有一个进程服务。这种方法有很多优点——增加隔离性、简化水平扩展、更高的可重用性等。但是,它也有一个很大的缺点——正常情况下,虚拟(或物理)机器很少只运行一个服务。虽然 Docker 试图提供一些变通方法来创建多服务容器,但 Kubernetes 迈出了更大胆的一...

2022-04-07 15:01:45 291

转载 如何调试Kubernetes集群中的网络延迟问题

本文深入研究和解决了 Kubernetes 平台上的服务零星延迟问题,就在不久前我也遇到了类似的问题,看似是玄学事件,刚开始归结于网络链路抖动,一段时间后依然存在,虽然影响都是 P99.99 以后的数据,但是扰人心智,最后通过多方面定位,解决了该问题。最后发现跟业务、网络都没有什么关系,而是基础设施自身出了问题,如下文给了一个具体排查方案,并从一定程度上解释了容器、cgr...

2022-04-06 19:01:00 1293

转载 新手必须知道的 Kubernetes 架构

控制平面组件ETCDetcd 是一个快速、分布式、一致的键值存储,用作持久存储 Kubernetes 对象数据(如 pod、replication controllers, secrets, services 等)的后备存储。实际上,etcd 是 Kubernetes 存储集群状态和元数据的唯一地方。唯一直接与 etcd 对话的组件是 Kubernetes API Ser...

2022-03-31 09:01:00 357

原创 如何提高 Flink K8s 集群资源利用率?

问题在 Flink on K8s 默认提交作业的命令下,我们会指定作业的 JM/TM 的 CPU 和 Memory,最后作业生成的 pod 它的 CPU/Memory 的 request/limit 都是一样的资源,但是作业真实运行时使用的资源远达不到 limit 的值,这样就会造成机器资源浪费(水位不高,但是机器又不能再申请 pod)。比如下面命令:(指定了 TM 的资...

2022-03-30 09:10:00 2768

转载 Flink SQL篇,SQL实操、Flink Hive、CEP、CDC、GateWay

Flink源码篇,作业提交流程、作业调度流程、作业内部转换流程图Flink核心篇,四大基石、容错机制、广播、反压、序列化、内存管理、资源管理Flink基础篇,基本概念、设计理念、架构模型、编程模型、常用算子1、Flink SQL有没有使用过?2、Flink被称作流批一体,从哪个版本开始,真正实现流批一体的?3、Flink SQL 使用哪种解析器?4、Calcite主要功能...

2022-03-24 09:10:43 2797 1

转载 Flink源码篇,作业提交流程、作业调度流程、作业内部转换流程图

Flink核心篇,四大基石、容错机制、广播、反压、序列化、内存管理、资源管理Flink基础篇,基本概念、设计理念、架构模型、编程模型、常用算子Flink源码篇,作业提交流程、作业调度流程、...

2022-03-21 09:49:27 2005

转载 Flink核心篇,四大基石、容错机制、广播、反压、序列化、内存管理、资源管理...

Flink基础篇,基本概念、设计理念、架构模型、编程模型、常用算子大纲:1、Flink的四大基石包含哪些?2、讲一下Flink的Time概念?3、介绍下Flink窗口,以及划分机制?4、介...

2022-03-11 09:28:00 3337

转载 美团集群调度系统的云原生实践

本文介绍了美团在如何解决大规模集群管理的难题、设计优秀且合理的集群调度系统方面的实践,阐述了美团在落地以Kubernetes为代表的云原生技术时,比较关心的问题、挑战以及对应的推进策略。同...

2022-03-08 09:31:00 741

转载 Flink基础篇,基本概念、设计理念、架构模型、编程模型、常用算子

1、什么是Flink?简单描述下2、解释下其中的 数据流、流批一体、容错能力等概念?3、Flink 和 Spark Streaming的区别?4、Flink 的架构包含哪些?5、Flink...

2022-03-06 20:38:05 573

转载 Flink CDC 2.0 实现原理剖析

图文详解CDC技术,看这一篇就够了!Flink CDC Connectors是 Apache Flink 的一组源端(Source)连接器,通过捕获变更数据(Change Data Ca...

2022-03-02 21:39:19 4589

Flink 全网最全资源(视频、博客、PPT、入门、原理、实战、性能调优、源码解析、问答等持续更新)

Flink 全网最全资源(视频、博客、PPT、入门、原理、实战、性能调优、源码解析、问答等持续更新),包含 Flink 入门、概念、原理、实战、性能调优、大型案例、源码解析

2019-10-25

Flink源码解析.zip

1、Flink 源码解析 —— 源码编译运行 2、Flink 源码解析 —— 项目结构一览 3、Flink 源码解析—— local 模式启动流程 4、Flink 源码解析 —— standalonesession 模式启动流程 5、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Job Manager 启动 6、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Task Manager 启动 7、Flink 源码解析 —— 分析 Batch WordCount 程序的执行过程 8、Flink 源码解析 —— 分析 Streaming WordCount 程序的执行过程 9、Flink 源码解析 —— 如何获取 JobGraph? 10、Flink 源码解析 —— 如何获取 StreamGraph? 11、Flink 源码解析 —— Flink JobManager 有什么作用? 12、Flink 源码解析 —— Flink TaskManager 有什么作用? 13、Flink 源码解析 —— JobManager 处理 SubmitJob 的过程 14、Flink 源码解析 —— TaskManager 处理 SubmitJob 的过程 15、Flink 源码解析 —— 深度解析 Flink Checkpoint 机制 16、Flink 源码解析 —— 深度解析 Flink 序列化机制 17、Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的?

2019-06-04

Flink 全网最全资源(视频、博客、PPT、入门、实战、源码解析、问答等持续更新).md

Flink 全网最全资源(视频、博客、PPT、入门、实战、源码解析、问答等持续更新) 1、Flink 源码解析 —— 源码编译运行 2、Flink 源码解析 —— 项目结构一览 3、Flink 源码解析—— local 模式启动流程 4、Flink 源码解析 —— standalonesession 模式启动流程 5、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Job Manager 启动 6、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Task Manager 启动 7、Flink 源码解析 —— 分析 Batch WordCount 程序的执行过程 8、Flink 源码解析 —— 分析 Streaming WordCount 程序的执行过程 9、Flink 源码解析 —— 如何获取 JobGraph? 10、Flink 源码解析 —— 如何获取 StreamGraph? 11、Flink 源码解析 —— Flink JobManager 有什么作用? 12、Flink 源码解析 —— Flink TaskManager 有什么作用? 13、Flink 源码解析 —— JobManager 处理 SubmitJob 的过程 14、Flink 源码解析 —— TaskManager 处理 SubmitJob 的过程 15、Flink 源码解析 —— 深度解析 Flink Checkpoint 机制 16、Flink 源码解析 —— 深度解析 Flink 序列化机制 17、Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的?

2019-06-04

Distributed.Systems.An.Algorithmic.Approach.2nd.Edition

Distributed.Systems.An.Algorithmic.Approach.2nd.Edition 好书

2018-10-07

dubbo用户手册

dubbo是一个分布式服务框架,以及SOA治理方案。其功能主要包括:高性能NIO通讯及多协议集成,服务动态寻址与路由,软负载均衡与容错,依赖分析与降级等。

2017-10-22

网络类加载器

自定义的网络类加载器源码

2017-02-26

ACM刷题技巧及一些题目解答

ACM刷题技巧及一些题目解答,ACM做题过程中的一些小技巧 新生杭电ACM做题推荐(100题)

2016-01-03

Java小实验及答案

Java小实验及答案,让大家在学习一定的基础后做些小的实验,更好的掌握java的各种基础

2016-01-03

100+经典Java面试题及答案解析

100+经典Java面试题及答案解析,让大家在面试之前能够掌握一些主要的面试题目,更好的发挥自己的水平。

2016-01-03

廖雪峰Python+Git+javascript教程离线版

廖雪峰Python+Git+javascript教程离线版,让大家更好的学习,

2016-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除