flink
Aponson
这个作者很懒,什么都没留下…
展开
-
【Flink流式计算框架】checkpoint(容错)_恢复数据(容错)_savepoint
012-Flinkcheckpoint(容错)checkpoint概述checkpoint配置恢复数据(容错)重启策略概述重启策略多checkpoint从checkpoint恢复数据savepoint(重量级checkpoint)checkpoint(容错)checkpoint概述(1)为了保证state的容错性,Flink需要对state进行checkpoint。(2)Checkpoint是Flink实现容错机制最核心的功能,它能够根据配置周期性地基于Stream中各个Operator/task的原创 2020-08-09 20:50:47 · 609 阅读 · 0 评论 -
【Flink流式计算框架】State(KeyedState/OperatorState)和StateBackend及配置
011-FlinkStatestate概述State类型KeyedState案例Operator State案例(unKeyedState)State backendMemoryStateBackendFsStateBackendRocksDBStateBackendStateBackend配置方式State:一般指一个具体的task/operator的状态。 Keyed State(keyBy):托管状态、原始状态 工作中用的较多原创 2020-08-05 23:24:20 · 952 阅读 · 1 评论 -
【Flink流式计算框架】并行度_slot_task_数据传输方式_OperatorChain
010Flink有状态的流和分布式计算并行度&Slot&Task并行度的设置数据传输的方式Operator Chain使用StreamExecutionEnviroment.createLocalEnvironmentWithWebUI(new Configurati-on()),可以在本地看到flink的运行信息需要引入依赖nc -lk 8888建立以一个socket源客户端多少个并行度就有多少个task每个方法,每个算子后面都可以设置并行度.setParallelism()原创 2020-08-03 17:33:16 · 542 阅读 · 0 评论 -
【Flink流式计算框架】flink任务提交
009FlinkFlink基本架构概述Client 客户端JobManagerFlink基本架构standalone模式:主从式的架构yarn模式概述Flink 整个系统主要由两个组件组成,分别为 JobManager 和 TaskManager,Flink 架构也遵循 Master - Slave 架构设计原则,JobManager 为 Master 节点,TaskManager 为 Worker (Slave)节点。所有组件之间的通信都是借助于 Akka Framework,包括任务的状原创 2020-08-03 15:29:11 · 485 阅读 · 0 评论 -
【Flink流式计算框架】DataSet算子操作
008FlinksourcetransformMapPartitiondistinctjoinOutJoinCrossFirst-n 和 SortPartitionpartitionsinkDataSet算子操作(有界的、批处理、离线)Spark:1.2RDD->1.3DataFrame->1.6DataSet keyBy和groupBy效果一样,为了区分DataStream和DataSet source基于文件:readTextFile 基于集合:fromCollection(Co转载 2020-08-02 15:46:43 · 378 阅读 · 0 评论 -
【Flink流式计算框架】常见Transformation操作
006Flinkmap和filterflatMap,keyBy和sumunionconnect,conMap和conFlatMapSplit和Select获取source的方式(自带的) 基于文件:readTextFile() 基于socket:socketTextStream 基于集合原创 2020-08-02 10:47:25 · 328 阅读 · 0 评论 -
【Flink流式计算框架】常见sink操作
007Flinkprint() / printToErr()writeAsText()Flink提供的sink自定义sinkprint() / printToErr()打印每个元素的toString()方法的值到标准输出或者标准错误输出流中writeAsText()/** * 数据源:1 2 3 4 5.....源源不断过来 * 通过map打印一下接受到数据 * 通过filter过滤一下数据,我们只需要偶数 */public class WriteTextDemo { public原创 2020-08-02 10:46:44 · 1662 阅读 · 0 评论 -
【Flink流式计算框架】Flink数据源
005Flink获取source的方式(自带的) 基于文件:readTextFile() 基于socket:socketTextStream 基于集合:fromCollection(Collection) 自定义数原创 2020-07-28 19:42:13 · 434 阅读 · 0 评论 -
【Flink流式计算框架】Local模式安装_Standalone模式安装(local)_Flink on Yarn模式安装_Flink Shell使用
004FlinkLocal模式安装(集群只有一个节点)Local模式安装在集群上提交任务Standalone模式安装(local)Flink on Yarn模式安装第一种方式第二种方式help信息(yarn-session.sh和flink run)Local模式安装(集群只有一个节点)Local模式安装(1)安装jdk,配置JAVA_HOME,建议使用jdk1.8以上(2)安装包下载地址:http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-原创 2020-07-28 17:24:30 · 616 阅读 · 0 评论 -
【Flink流式计算框架】flink入门程序实现(单词计数)_实时统计_离线统计
003FlinkFlink程序步骤一:获取执行环境,获取的是程序入口步骤二:获取数据源步骤三:数据处理Out.collect(new Tuple2<>(word,1))Out,collect(Tuple2.of(word,1))这俩结果一样步骤四:数据的输出步骤五:启动应用程序工作中算子参数,用面向对象的抽离复杂的算子实时需求分析 实时统计每隔1秒统计最近2秒单词出现的次数开发环境部署官网建议使原创 2020-07-26 17:35:31 · 876 阅读 · 0 评论 -
【Flink流式计算框架】flink的状态(state)是怎么理解的
002FlinkApache Flink® — Stateful Computations over Data StreamsStreams:对于流计算,大家应该都知道,就是处理源源不断产生的数据,虽然有批次,但是是实时的,延迟性很低的,不是那种聚合了很长一段时间才处理的方式。Stateful:对于状态,那怎么理解呢?开始,我认为就是在操作过程,有这个操作步骤的,操作方法,操作数据的标记,但是你不能这样说那。这样讲会比较浅,虽然你也知道很多state,所以要讲的有理有据有场景。State:一般指原创 2020-07-25 18:00:41 · 847 阅读 · 1 评论 -
【Flink流式计算框架】Flink简介_Flink架构图
001FlinkFlink简介处理无界和有界数据部署应用到任意地方运行任意规模应用利用内存性能Flink架构图Flink简介SparkStreaming需要整合hbase/redis才灵活管理状态,会复杂Flink是有状态的流数据的输入数据的处理数据的输出横线代表数据库,竖线代表消息系统(MQ)Apache Flink® — Stateful Computations over Data StreamsApache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进转载 2020-07-25 16:11:03 · 1359 阅读 · 0 评论