自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Flink运行架构

1、Flink运行时的组件Flink运行时架构主要包括四个不同的组件,他们会在运行流处理应用程序时协同工作:作业管理器(JobManager)资源管理器(ResourceManager)任务管理器(TaskManager)分发器(Dispatcher)1.1 作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的job...

2020-03-25 17:40:00 698

原创 Flink 有状态的算子和应用程序

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收水位数据,并在水位超过指定高度时发出警告。有状态的计算则会基于多个事件输出结果。以下是一些例子。所有类型的窗口。例如,计算过去一小时的平均水位,就是有状态的计算。所有用于复杂事件处理的状态机。例如,若在一分钟内收到两个相差20cm以上的水位差读数,则发出警告...

2020-03-25 17:38:00 2366

原创 Flink 状态一致性

当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还是重复计数?1、一致性级别在流处理中,一致性可以分为3个级别:at-most-on...

2020-03-25 17:36:00 217

原创 Flink 检查点(checkpoint)

Flink具体如何保证exactly-once呢? 它使用一种被称为"检查点"(checkpoint)的特性,在出现故障时将系统重置回正确状态。下面通过简单的类比来解释检查点的作用。假设你和两位朋友正在数项链上有多少颗珠子,如下图所示。你捏住珠子,边数边拨,每拨过一颗珠子就给总数加一。你的朋友也这样数他们手中的珠子。当你分神忘记数到哪里时,怎么办呢? 如果项链上有很多珠子,你显然不想从...

2020-03-25 17:35:00 6428

原创 Flink 时间语义与watermark

1、Flink中的时间语义在Flink的流式处理中,会涉及到时间的不同概念,如下图所示:Event Time: 是时间创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳Ingestion Time:数据进入Flink的时间Processing Time: 是每一个执行基于时间操作的算子的本地...

2020-03-25 17:34:00 297

原创 Flume的可靠性保证:故障转移、负载均衡

Sink groups允许组织多个sink到一个实体上。 Sink processors能够提供在组内所有Sink之间实现负载均衡的能力,而且在失败的情况下能够进行故障转移从一个Sink到另一个Sink。下面是官方配置:从参数类型上可以看出有3种Processors类型:default, failover(故障转移)和 load_balance(负载均衡),当然,官网上说目前自定义...

2020-03-22 10:59:00 326

原创 Hive 文件存储格式

1、5种存储格式Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。ClouderaImpala也支持这些文件格式。在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式...

2020-03-19 21:48:00 529

原创 Kafka 核心组件之协调器

1、消费者与消费者组假设某 topic 有4个分区,消费者组中只有一个消费者,那么这个消费者将消费全部 partition 中的数据。如果消费者组中有两个消费者,那么每个消费者消费两个 partition。如果消费者组中有4个消费者,那么每个消费者消费一个partition。如果消费者组中有5个消费者,那么有一个消费者就是空闲的。注意:在同一个消费者组中,不要让消费者的...

2020-03-19 20:40:00 629

原创 Canal工作原理

1、MySQL主从复制原理2、Canal 的工作原理canal模拟MySQL slave的交互协议,伪装自己为MySQL slave,向MySQL master发送dump协议mysql master收到dump请求,开始推送binary log为slavecanal解析binary log对象(原始为byte流)3、MySQL的binary logMySQL 的二进...

2020-03-19 20:10:00 657

原创 ElasticSearch

1.1 ElasticSearch重要概cluster:整个ES默认就是集群状态,整个集群是一份完整、互备的数据node:集群中一个节点,一个进程是一个nodeshard:分片,即使是一个节点中的数据也会通过hash算法,分成多个片段,默认是5片(7.0默认1片)index:相当于database,对用户来说是一个逻辑数据库,理论上被分为多个shard存放,也可能...

2020-03-19 19:51:00 52

原创 Kylin

1、Kylin简介1.1 kylin简介Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。Apache Kylin™ 令使用者仅需三步,即可实现超大数据集上的亚秒级查询。定义数据集上的一个星形或雪花形...

2020-03-19 19:28:00 137

原创 Presto

1、概念presto是一个开源的分布式SQL查询引擎数量支持GB到PB字节主要用来处理秒级查询的场景注意: 虽然presto可以解析SQL,但它不是一个标准的数据库不是mysql,oracle的代替品,也不能用来处理在线事务(OLTP)2、Presto架构presto由一个coordinator和多个worker组成由客户端提交查询,从presto命令行CLI提交到...

2020-03-19 14:54:00 356

原创 OLAP数据库

OLAP百家争鸣OLAP简介OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。与此相对的是OLTP(on-line transaction processing)联机事务处理系统。联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的。OLAP的提出引...

2020-03-17 10:01:00 1279

原创 ClickHouse

引言ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。目前国内社区火热,各个大厂纷纷跟进大规模使用:今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右。腾讯内部用ClickHouse做游戏数据分析,并且为之建立了一整套监控运维体系。...

2020-03-16 21:09:00 507

原创 SparkSql运行原理详细解析

传统关系型数据库中 ,最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。 分别对应了sql查询过程中的result , datasource和operation ,也就是按照result ——> datasource ——&...

2020-03-14 12:07:00 629

原创 Hive优化一

一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的3、sum,count,max,min 等 UDAF,不怕数据倾斜问题,hadoop 在 map 端的汇总合并优化,使 数据倾斜不成...

2020-03-11 10:19:00 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除