Flink
skwang_君永夜
这个作者很懒,什么都没留下…
展开
-
Flink快速入门一(简介以及WC编程)
1、什么是FlinkFlink是架构在有界和无界流数据上的有状态的分布式计算引擎,既可以处理流数据又可以处理批数据(批是流的特例)1.1 有界无界流Unbounded streams:无界流,即流数据,定义了开始,没有定义结束Bounded streams:无界流,即批数据,定义了开始以及结束。将连续的批处理放大即是流处理1.2 部署模式Flink可以部署在 Hadoop YAR...原创 2019-08-01 19:25:32 · 1050 阅读 · 2 评论 -
Flink学习知识分享二(分布式运行时环境、执行流程图、Time、WaterMark)
1.Distributed Runtime Environment1.1Tasks and Operator Chainstasks:将一些操作符的一些任务连接到一起,放到一个任务中执行,这样的话减少线程间切换以及缓冲的开销,增加吞吐量降低延迟。1.2Job Managers, Task Managers, Clients每个都是JVM进程。Clients:向job提交作业的客户端,当...原创 2019-08-08 11:21:26 · 630 阅读 · 0 评论 -
Flink快速入门二(Source编程)
1.概念当前主流的(Tez/Spark/Flink)计算都是通过构建DAG图,然后触发执行的。2.DataStream API 简介与使用DataStream API 是用于进行Stream流计算开发的API。2.1读取Socket中数据生成Stream省略,请参考之前的内容2.2读取text文件中的数据生成Stream3.DataSet API 简介与使用DataSet API ...原创 2019-08-06 10:33:35 · 1031 阅读 · 0 评论 -
Flink快速入门三(Transformation编程)
1.简介Flink的Transformation算子和Spark的算子很类似,只要熟悉了Spark,使用scala进行Flinl的编程,是非常简单方便的事儿。transformation编程官网指导,如下简单列举了join和cross的transformation编程。2.join & cross编程案例package com.wsk.flink.transformationsi...原创 2019-08-06 14:44:04 · 426 阅读 · 0 评论 -
Flink学习知识分享三(State、Checkpointin)
1.State参考网址:https://ci.apache.org/projects/flink/flink-docs-release-1.8/dev/stream/state/1.1定义实际上就是指flink计算中间的计算结果或者元数据属性等信息,State会做相应的持久化,说白了State就是Flink计算过程中与时间相关的内部数据的快照,它是用于checkpoints做容错。1.2为...原创 2019-08-08 20:03:13 · 649 阅读 · 0 评论 -
Flink学习知识分享一(VS Spark、适用场景、基本概念)
1.Flink VS SparkFlink是基于流的有状态的计算。相对于Spark,Flink还是比较年轻,双方各有优势,取长补短。1.1定位Spark:流是批的特例Flink:批是流的特例1.2数据模型:Spark:Rdd集合,依靠lineage做恢复,存在宽窄依赖Flink:数据量和event的序列,依靠checkpoint做恢复,保证一致性,其次可以是来一条数据处理一条,...原创 2019-08-07 15:24:30 · 1772 阅读 · 0 评论 -
Flink学习笔记
前言:Flink是当前主流的实时计算框架,阿里的Blink重构了Flink即能做全量数据的批处理,也能做增量数据的实时处理;大数据的业务数据处理分为两个步骤:全量数据批计算,以及增量数据的实时计算,有时处理的业务逻辑是一致的但是代码确是两套,繁琐;当前主流的大数据实时计算框架有: Spark Streming、Kafka Streaming、Storm、Flink、Blink(阿里双十二的主流实时...原创 2019-08-27 23:48:55 · 1130 阅读 · 0 评论 -
Flink流计算编程--watermark(水位线)简介
一篇非常好的 Flink watermark 水印的文章,简洁易懂。转载:Flink watermark简介以及测试详细过程转载 2019-08-29 14:57:20 · 449 阅读 · 0 评论