自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Flink架构

提交一个任务的正常流程是:client与JobManager构建Akka连接,将任务提交到JobManager上,JobManager根据已经注册在JobManager中TaskManager的资源(TaskSlot)情况,将任务分配给有资源的TaskManager,并命令TaskManager启动任务,TaskManager则从JobManager接受部属的任务,使用slot资源启动task,建立数据接入的网络连接,然后接受数据并开始处理。

2024-04-01 21:04:57 388

原创 hdfs的读写流程

client发起文件上传请求,调用DistributedFileSystem对象的create()方法,在HDFS系统重创建一个新的空文件,该方法在底层调用ClientProtocol.create()方法通过RPC与NameNode建立连接,NameNode检查目标文件是否已经存在,父目录是否存在,并检查用户是否有相应的权限,若检查通过,NameNode会在文件系统目录树下的指定目录下创建一个新文件,但未申请任何Block,并将该操作记录在editlog中,否则的话文件创建失败,客户端得到异常信息。

2024-04-01 10:24:46 645

翻译 【无标题】

hdfs读写流程

2023-02-03 11:36:02 67

原创 分布式数据同步中间间canal

分布式数据同步中间件canal什么是canal?目前公司使用的各种异构数据源之间的实时增量同步系统底层有用到canal这个中间件,我们借此可以简单来讲下canal有什么用。传统的主从同步原理master将数据记录到了binlog日志里面,然后slave会通过一个io线程去读取master那边指定位置点开始的binlog日志内容,并将相应的信息写到slave这边的relay日志里面,最后slave会有单独的sql线程来读取这些master那边执行的sql语句记录,达成两端的数据同步。canal中间

2020-07-27 17:39:11 391

原创 hive表或分区被误删了怎么找回?

hive表或分区被误删了怎么找回?在平常工作中,因为这样那样的原因表数据被误删了,这个时候要怎么找回呢?先记一下昨天刚发生过的问题。线上数据因为之前的误操作存在一些脏分区,比如像这样的:这种异常分区比较多,手动删除用alter table dw_dim.dim_shop_d_his drop partition(dt=‘2018-06-04’) 太多了,比较费劲。这个时候就考虑写个脚本批量删除,结果判断是否为脏分区的状态值设大了,导致正常数据被误删了好多。(这个时候就提醒我们在做线上操作的时候一定要

2020-07-10 19:02:59 1663

原创 线上操作须谨慎!!!

线上操作须谨慎!!!记录一次有关动态分区导致的bug问题描述记录一次线上bug。bug引起的原因很简单,就是对数仓门店维表新增字段的时候,把新增字段放在最后面,因为我们采取的是动态分区的方式,默认以最后一个字段作为分区字段,程序在第二天执行的时候使本来分区的数据存在了脏分区内。正常分区没有数据,关键是程序正常执行,并没有触发报警机制。所以悲剧就这样酿成了。。。。导致相关下游,包括报表,模型,算法,以及维度相关的应用大批量的空数据或者直接报错。问题复盘至于后期怎么处理的,无非是重跑分区,下游任务做重跑

2020-07-10 18:24:31 1415

原创 Spark中的checkpoint

spark的checkpoint机制在spark code开发时,有时会用到sparkContext().setCheckpointDir(/hdfspath)来做一个检查点,本文就来聊下为什么要创建这样一个检查点。为什么要做checkpoint?在spark计算里面,如果计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,当然就比较费心能。如果我们将中间计算结果通过cache或者per

2020-06-26 15:52:52 283

原创 Hbase分布式实时数据库

Hbase分布式实时数据库了解Hbase分布式实时数据库行键(Row Key)列簇(ColumnFamily)Hbase系统架构HMaster功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入了解Hbase分布式实时数据库Hba

2020-06-25 19:05:35 1657

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除