新一代大数据计算引擎 Flink从入门到实战
文章平均质量分 56
新一代大数据计算引擎 Flink从入门到实战学习
一角残叶
人生如逆旅,我亦是行人
展开
-
Flink核心技术与实战(4)- Flink类型系统,自定义Source Function
1 Flink类型系统1.1 基础数据类型1.2 Values1.3 复合数据类型1.3 泛型和其他普通的Class类型1.4 Hadoop Writables类型1.5 创建TypeInformationTypeInformation使用场景2 自定义SourceFunction案例2.1 DataSource In Batch Model2.2 基于DataStream API批流一体3 基于DataStream API实现PV,UV原创 2021-02-25 14:48:59 · 1079 阅读 · 0 评论 -
Flink核心技术与实战(3)- 窗口计算(2)
1 Window多流合并1.1 应用场景每个用户的点击 Join 这个用户最近10分钟内的浏览1.2 Window Join1.3 Tumbling Window Join1.4 Sliding Window Join1.5 Session Window Join1.6 Interval Join目前都是基于EventTime1.7 Window Join的使用1.7.1 Sliding Window Join实例1.7.2 Tumbling Window Jo原创 2021-02-25 10:57:27 · 1398 阅读 · 0 评论 -
Flink核心技术与实战(2)- 窗口计算(1)
1 窗口计算1.1 window抽象概念1.2 Window AssignerFlink支持的窗口类型1.3 预置的 Keyed Windows1.4 触发器一次触发原创 2021-02-24 16:22:34 · 2337 阅读 · 0 评论 -
Flink核心技术与实战(1)- watermark
1 分布式流处理模型2 DataStream API2.1 DataStream基本数据源2.2 DataStream的转换操作2.4 KeyedStream2.5 物理分组2.6 案例3 watermark3.1 基于eventTime处理事件时间 - 最大时延 = watermark9 meiyou原创 2021-02-19 15:34:34 · 3620 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (21) - 项目实战(7)- 完成2个流关联数据的清洗
1 完成两个流关联数据的清洗package test.flink.scala.scalaprojectimport java.text.SimpleDateFormatimport java.utilimport java.util.{Date, Properties}import org.apache.flink.api.common.functions.RuntimeContextimport org.apache.flink.api.common.serialization.Simpl原创 2020-10-05 22:41:06 · 416 阅读 · 2 评论 -
新一代大数据计算引擎 Flink从入门到实战 (20) - 项目实战(6)- 功能2
1 用户 id 和域名映射create table user_domain_config(id int unsigned auto_increment,user_id varchar(50) not null,domain varchar(50) not null,primary key (id))insert into user_domain_config(user_id,domain) values('8000000','v1.go2yd.com');insert into use原创 2020-10-05 18:10:10 · 286 阅读 · 1 评论 -
新一代大数据计算引擎 Flink从入门到实战 (19) - 项目实战(5)- 图形化展示
1 修改索引curl -XDELETE 'http://master:9200/cdn'curl -XPUT 'http://master:9200/cdn'curl -H "Content-Type: application/json" -XPOST 'http://master:9200/cdn/traffic/_mapping?pretty' -d '{"traffic":{ "properties":{ "domain":{"type":"keyword"}, "traffic原创 2020-10-02 16:41:19 · 685 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (18) - 项目实战(4)-结果写入es
1 es 部署nosql,存储数据https://www.elastic.co/cn/downloads/elasticsearch注意要使用普通用户后台启动2 Kibana 部署启动3 flink 数据 sink 到 Elasticsearchhttps://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/connectors/elasticsearch.html <de原创 2020-10-02 16:13:47 · 428 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (17) - 项目实战(3)- watermark 定义
1 为数据添加时间水印解决数据无序问题https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/event_timestamps_watermarks.htmlpackage test.flink.scala.scalaprojectimport java.text.SimpleDateFormatimport java.util.Propertiesimport org.apache.flink.api.comm原创 2020-10-02 10:53:15 · 248 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (16) - 项目实战(2)
1 使用 flink 消费 kafka 的数据1.1 初步接收数据package test.flink.scala.scalaprojectimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.api.scala.createTypeInformationimport org.apache.flink.strea原创 2020-10-01 23:07:44 · 333 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (15) - 项目实战(1)
1 日志统计分析接入的数据类型就是日志离线:Flume==>HDFS实时:Kafka==>流处理引擎==>ES==>Kibana项目功能1)统计一分钟内每个域名访问产生的流量Flink接收Kafka的进行处理2)统计一分钟内每个用户产生的流量域名和用户是有对应关系的Flink接收Kafka的进行 + Flink读取域名和用户的配置数据 进行处理aliyun CN A E [17/Jul/2018:17:07:50 +0800] 2 223.104.18.原创 2020-10-01 22:41:27 · 475 阅读 · 1 评论 -
新一代大数据计算引擎 Flink从入门到实战 (14) -监控和调优
1 HistoryServer原创 2020-10-01 21:57:14 · 1063 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (13) - flink scala shell
1 flink scala shell./bin/start-scala-shell.sh local原创 2020-10-01 15:46:28 · 243 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (12) - flink 部署和作业提交
1 flink 源码编译根据 hadoop 和 scala 的版本安装 JDK1.8 和 mavenmvn clean install -DskipTests -Dfast -Pvendor-repos -Dhadoop.version=2.6.0-cdh5.14.22 flink onYARN 的2种方式https://ci.apache.org/projects/flink/flink-docs-release-1.6/ops/deployment/yarn_setup.ht原创 2020-10-01 15:08:55 · 390 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (11)- 整合 kafka 的 offset 管理和exactly once语义
1 checkpointsink 和 source 都可以使用原创 2020-09-30 20:51:09 · 117 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (10)- Connectors
1 Connectorshttps://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/connectors/1.1 hadoop<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-filesystem_2.11</artifactId> <version原创 2020-09-30 20:40:54 · 323 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (9)- Time 和 Window
1 Timehttps://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/event_time.html2 windowhttps://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/stream/operators/windows.html2.1 案例滚动窗口package com.imooc.flink.java.windowtest;import o原创 2020-09-30 14:21:54 · 189 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (8)- Table API 和 SQL
1 Table API 和 SQLhttps://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/table/<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table_2.11</artifactId> <version>1.6.1</version><原创 2020-09-30 10:34:17 · 266 阅读 · 1 评论 -
新一代大数据计算引擎 Flink从入门到实战 (7)- DataStream API (2)
1 mappackage com.imooc.flink.java.demo5;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.str原创 2020-09-30 09:33:30 · 152 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (6)- DataStream API (1)
1 DataStream API1.1 自定义数据源无并行度的数据源package com.imooc.flink.java.demo5;import org.apache.flink.streaming.api.functions.source.SourceFunction;import java.time.Period;/** * @Description TODO * @Author tzb * @Date 2020/9/29 17:03 * @Version 1.0原创 2020-09-29 19:26:20 · 204 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (5)- DataSet API 计数器
1 计数器并行度为1package test.flink.scalaimport org.apache.flink.api.common.functions.RichMapFunctionimport org.apache.flink.api.scala.{ExecutionEnvironment, createTypeInformation}object CounterApp { def main(args: Array[String]): Unit = {原创 2020-09-29 16:51:03 · 197 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (4)- DataSet API (2)
1 join public static void joinFunction(ExecutionEnvironment env) throws Exception { List<Tuple2<Integer, String>> info1 = new ArrayList<>(); info1.add(new Tuple2(1, "Hadoop")); info1.add(new Tuple2(2, "Flink"));原创 2020-09-29 15:54:54 · 153 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (3)- DataSet API (1)
1 DataSet 和 DataStream不可变所有 flink 程序都是延迟执行原创 2020-09-29 15:26:23 · 244 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (2)- 流处理案例
1 流处理案例package com.imooc.flink.java.demo2;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.a原创 2020-09-29 11:01:40 · 237 阅读 · 0 评论 -
新一代大数据计算引擎 Flink从入门到实战 (1)- 批处理案例
1原创 2020-09-29 10:39:09 · 566 阅读 · 0 评论