大数据
文章平均质量分 93
Leonardo_KY
Learning by doing!
展开
-
Flink+Paimon多流拼接性能优化实战
Flink+Paimon多流拼接性能优化实战,本文使用Flink+Paimon基于ParmaryKey Table主键表(PartialUpdate)进行多流拼接的时候,跑一段时间有时会遇到周期性背压、checkpoint时间过长等情况,本文通过剖析源码逻辑、修改源码,在一定程度上解决了这个问题。另外,还意外解决了跨分区关联率偏低的问题。原创 2023-08-31 16:55:30 · 3307 阅读 · 7 评论 -
基于数据湖的多流拼接方案-HUDI实操篇
基于数据湖的多流拼接方案-HUDI实操篇,包含一些代码样例、简单demo;以及到生产实操之后可能会出现的问题及解决方案。原创 2023-08-28 20:48:07 · 858 阅读 · 3 评论 -
基于数据湖的多流拼接方案-HUDI概念篇
基于数据湖的多流拼接方案-HUDI概念篇,包含Hudi的一些基本概念和原理、使用场景,已经一些相关参考资料。(后续会更新Hudi的实战内容)原创 2023-08-24 21:09:08 · 1306 阅读 · 0 评论 -
Hadoop生态系统介绍-汇总-标注重点
hadoop生态系统的详细介绍转自:https://blog.csdn.net/wdr2003/article/details/79692886补充参考:https://blog.csdn.net/woshiwanxin102213/article/details/19688393简介Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软...转载 2020-03-26 00:18:54 · 390 阅读 · 0 评论 -
Hadoop生态系统基本介绍
Hadoop是一个搭建在廉价PC上的分布式集群系统架构,它具有高可用性、高容错性和高可扩展性等优点。由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。二、Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要的两种组成元素为底层用于存储...转载 2020-03-25 16:58:36 · 719 阅读 · 0 评论 -
Hadoop生态系统主要架构
Hadoop生态系统主要架构图汇总1 hadoop1.0时期架构hadoop1.0时期架构2 hadoop2.0时期架构hadoop2.0时期架构3 hdfs架构hdfs架构【Active Namenode】:主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求【Secondary Name...转载 2020-03-25 16:45:55 · 1445 阅读 · 0 评论