Flink入门及实战
Flink入门及实战
一角残叶
人生如逆旅,我亦是行人
展开
-
Flink入门及实战(14)- Flink 状态管理
1 State1.1 Keyed State1.2 Operator State1.3 状态容错生成快照快照恢复2 CheckPoint2.1 checkpoint 配置2.2 State Backend(状态的后端存储)原创 2020-10-10 19:36:35 · 160 阅读 · 0 评论 -
Flink入门及实战(23)- 提交集群
1 提交集群1.1 修改并行度修改获取 kafka 中数据的并行度,和 kafka 设置为相同bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 5 --topic allData1.2 修改依赖1.3 打包2 测试2.1 启动 zookeeper2.2 启动 kafkabin/kafka-server-start.sh config/s原创 2020-09-29 09:24:52 · 304 阅读 · 0 评论 -
Flink入门及实战(22)- 数据清洗实时ETL(3)
1 kafka 生产者1.1 父pom <build> <!--编译插件--> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId&原创 2020-09-28 19:54:04 · 1229 阅读 · 4 评论 -
Flink入门及实战(21)- 数据清洗实时ETL(2)
1 编写自定义的 redis 数据源在父pom添加依赖<!-- https://mvnrepository.com/artifact/redis.clients/jedis --> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId>原创 2020-09-28 17:11:12 · 840 阅读 · 0 评论 -
Flink入门及实战(20)- 数据清洗实时ETL(1)
1 数据清洗1.1 采集日志方法1:埋点方法2:日志写到本地,然后 flume 采集1.2 需求分析原创 2020-09-28 14:02:36 · 1797 阅读 · 0 评论 -
Flink入门及实战(19)- flink生产环境配置
1 flink 生产环境配置原创 2020-09-27 22:34:25 · 490 阅读 · 0 评论 -
Flink入门及实战(18)- kafka
1 kafka-connector1.1 Kafka consumer 消费策略设置1.2 kafka consumer 容错1.3 动态加载 topic1.4 kafka consumer offset 自动提交2 kafka producer3 案例kafka 版本 : 0.11 <dependency> <groupId>org.apache.flink</groupId> <a原创 2020-09-27 22:25:27 · 562 阅读 · 0 评论 -
Flink入门及实战(17)- Flink 并行度分析
1 TaskManager 与 slot1.1 并行度-Parallel2 并行度设置2.1 Operator level2.2 执行环境层次2.3 客户端设置2.4 系统层次原创 2020-09-27 16:45:21 · 235 阅读 · 0 评论 -
Flink入门及实战(16)- Flink Time
1 Time1.1 Time 案例Event Time1.2 设置 Time 类型2 EventTime 和 Watermarks2.1 有序流的 watermarks2.2 无序流的 watermarks2.3 多并行度流的 watermarks2.4 watermarks 的生成方式原创 2020-09-27 16:08:25 · 152 阅读 · 0 评论 -
Flink入门及实战(15)- Flink Window
1 window1.1 window 类型针对以上每一种 window,有可以分为1.1.1 滚动窗口1.1.2 滑动窗口1.2 TimeWindow 应用1.3 CountWindow 的应用2 window 聚合分类2.1 增量聚合package com.tzb.streaming;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.c原创 2020-09-27 15:16:04 · 252 阅读 · 0 评论 -
Flink入门及实战(13)- Flink 分布式缓存
1 Flink Distributed Cache原创 2020-08-24 08:55:46 · 396 阅读 · 0 评论 -
Flink入门及实战(12)- Flink Accumulators 和 Counters
1 累加器package com.tzb.demo.batch.batchAPI;import org.apache.flink.api.common.JobExecutionResult;import org.apache.flink.api.common.accumulators.IntCounter;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.func原创 2020-08-23 21:33:25 · 396 阅读 · 0 评论 -
Flink入门及实战(11)- Flink支持的DataType
1 Flink支持的DataType2 序列化3 广播变量3.1 DataStreaming 中的 Broadcastpackage com.tzb.demo.streaming.streamAPI;import com.tzb.demo.streaming.customSource.MyNoParaSource;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.stre原创 2020-08-23 20:31:48 · 1371 阅读 · 0 评论 -
Flink入门及实战(10)- DataSet API 之 DataSource
1 DataSet API 之 DataSource2 DataSet API 的 Transformations2.1 MapPartitionpackage com.tzb.demo.batch.batchAPI;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.原创 2020-08-23 10:42:08 · 649 阅读 · 0 评论 -
Flink入门及实战(9)- DataStream source 之 scala版本
1 读取 collectionpackage com.tzb.scalademo.streamingimport org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, createTypeInformation}object StreamingFromCollectionScala { def main(args: Array[String]): Unit = { val env = Stream原创 2020-08-23 09:29:32 · 990 阅读 · 0 评论 -
Flink入门及实战(8)- DataStream 的 sink
1 DataStream 的 sink原创 2020-08-22 16:21:26 · 687 阅读 · 0 评论 -
Flink入门及实战(7)- DataStream 算子操作
1 DataStream API 的 transformations1.1 keyBy典型用法dataStream.keyBy("someKey"), 指定对象的 someKey 字段作为分组 key;dataStream.keyBy(0),指定 Tuple 中第一个元素作为分组 key;注意:以下的类型不能作为 key一个实体类对象,没有重写 hashCode 方法一个任意类型的数组类型;基本数据类型,int,long...原创 2020-08-21 16:32:43 · 519 阅读 · 0 评论 -
Flink入门及实战(6)- 数据源
1 DataStream API 的 Data Source内置 ConnectorsSource 容错性1.1 集合数据源package com.tzb.demo.streaming;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.st原创 2020-08-20 19:50:20 · 297 阅读 · 0 评论 -
Flink入门及实战(5)- flink scala shell 代码调试
1 flink scala shell 代码调试原创 2020-08-20 18:11:45 · 225 阅读 · 0 评论 -
Flink入门及实战(4)- flink standalone + yarn 集群安装部署
1 flink standalone1.1 集群节点规划master(JobManager)node1 (TaskManager)node21.2 基础环境jdk1.8ssh 免密登录主机名/etc/hosts 文件防火墙关闭1.3 集群重要参数1.4 集群节点重启和扩容1.5 flink standalone 集群 job 的容错1.6 flink standalone 集群的 HA2 flink on YARN2.1 两种模式2.2 分布2.原创 2020-08-20 17:58:30 · 287 阅读 · 0 评论 -
Flink入门及实战(3)- flink local 集群安装以及集群代码提交执行
1 flink local 模式安装前提是配置了 JDK解压压缩包刷新配置文件原创 2020-08-20 15:56:14 · 275 阅读 · 0 评论 -
Flink入门及实战(2)-批处理
1 java 版本批处理package com.tzb.demo;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.AggregateOperator;import org.apache.flink.api.java.opera原创 2020-08-19 11:05:13 · 366 阅读 · 0 评论 -
Flink入门及实战(1)
1 Flink 和 storm,spark 对比要求消息投递语义为 Exactly Once 的场景;数据量较大,要求高吞吐低延迟的场景;需要进行状态管理或者窗口统计的场景,建议使用 flink2 入门案例创建空的 maven 工程 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifac原创 2020-08-19 10:26:00 · 1195 阅读 · 0 评论