2020年08月_Aponson

原创【Flink流式计算框架】checkpoint(容错)_恢复数据(容错)_savepoint

012-Flinkcheckpoint(容错)checkpoint概述checkpoint配置恢复数据(容错)重启策略概述重启策略多checkpoint从checkpoint恢复数据savepoint（重量级checkpoint）checkpoint(容错)checkpoint概述（1）为了保证state的容错性，Flink需要对state进行checkpoint。（2）Checkpoint是Flink实现容错机制最核心的功能，它能够根据配置周期性地基于Stream中各个Operator/task的

2020-08-09 20:50:47 590

原创【Flink流式计算框架】State(KeyedState/OperatorState)和StateBackend及配置

011-FlinkStatestate概述State类型KeyedState案例Operator State案例（unKeyedState）State backendMemoryStateBackendFsStateBackendRocksDBStateBackendStateBackend配置方式State：一般指一个具体的task/operator的状态。 Keyed State（keyBy）：托管状态、原始状态工作中用的较多

2020-08-05 23:24:20 921 1

原创【源码学习-spark2.1.1和yarn2.11】SparkOnYarn部署流程（二）ApplicationMaster_CoarseGrainedExecutorBackend

002-源码spark-2.1.1版SparkOnYarn部署流程-ApplicationMasterSparkOnYarn部署流程-CoarseGrainedExecutorBackendSparkSubmit// 启动进程– main// 封装参数– new SparkSubmitArguments// 提交– submit// 准备提交环境– prepareSubmitEnvironment// Cluster– childMainClass = “org.apache.spa

2020-08-05 14:14:58 452

原创【源码学习-spark2.1.1和yarn2.11】SparkOnYarn部署流程（一）从sparksubmit提交到yarn启动进程ApplicationMaster

001-源码spark-2.1.1版SparkOnYarn部署流程源码散步1.整体框架2.框架组件、通信3.任务的划分、调度、执行这里基于spark-2.1.1版本的源码，官网现在是spark-3.0.0和spark-2.1.1的源码还是有很多区别的。SparkOnYarn部署流程bin/spark-submit \-class org.apache.spark.examaple.SparkPi \-master yarn \-deploymode client \./examples

2020-08-04 16:28:38 452

原创【Flink流式计算框架】并行度_slot_task_数据传输方式_OperatorChain

010Flink有状态的流和分布式计算并行度&Slot&Task并行度的设置数据传输的方式Operator Chain使用StreamExecutionEnviroment.createLocalEnvironmentWithWebUI(new Configurati-on())，可以在本地看到flink的运行信息需要引入依赖nc -lk 8888建立以一个socket源客户端多少个并行度就有多少个task每个方法，每个算子后面都可以设置并行度.setParallelism()

2020-08-03 17:33:16 532

原创【Flink流式计算框架】flink任务提交

009FlinkFlink基本架构概述Client 客户端JobManagerFlink基本架构standalone模式：主从式的架构yarn模式概述Flink 整个系统主要由两个组件组成，分别为 JobManager 和 TaskManager，Flink 架构也遵循 Master - Slave 架构设计原则，JobManager 为 Master 节点，TaskManager 为 Worker （Slave）节点。所有组件之间的通信都是借助于 Akka Framework，包括任务的状

2020-08-03 15:29:11 464

转载【Flink流式计算框架】DataSet算子操作

008FlinksourcetransformMapPartitiondistinctjoinOutJoinCrossFirst-n 和 SortPartitionpartitionsinkDataSet算子操作（有界的、批处理、离线）Spark：1.2RDD->1.3DataFrame->1.6DataSet keyBy和groupBy效果一样，为了区分DataStream和DataSet source基于文件：readTextFile 基于集合：fromCollection(Co

2020-08-02 15:46:43 360

原创【Flink流式计算框架】常见Transformation操作

006Flinkmap和filterflatMap，keyBy和sumunionconnect,conMap和conFlatMapSplit和Select获取source的方式（自带的）基于文件：readTextFile() 基于socket：socketTextStream 基于集合

2020-08-02 10:47:25 311

原创【Flink流式计算框架】常见sink操作

007Flinkprint() / printToErr()writeAsText()Flink提供的sink自定义sinkprint() / printToErr()打印每个元素的toString()方法的值到标准输出或者标准错误输出流中writeAsText()/** * 数据源：1 2 3 4 5.....源源不断过来 * 通过map打印一下接受到数据 * 通过filter过滤一下数据，我们只需要偶数 */public class WriteTextDemo { public

2020-08-02 10:46:44 1646

一梦