Flink
文章平均质量分 76
XK&RM
这个作者很懒,什么都没留下…
展开
-
Flink Task && SubTask
Flink Task && SubTask1. 基本概念Task(任务):Task 是一个阶段多个功能相同 subTask 的集合,类似于 Spark 中的 TaskSet。subTask(子任务):subTask 是 Flink 中任务最小执行单元,是一个 Java 类的实例,这个 Java 类中有属性和方法,完成具体的计算逻辑。Operator Chains(算子链):没有 shuffle 的多个算子合并在一个 subTask 中,就形成了 Operator Chains,类似原创 2021-03-22 18:15:05 · 812 阅读 · 0 评论 -
Flink -- WEB && Standalone Clusters
目录1. Flink Web2. Flink Standalone Clusters 部署2.1 下载&&解压2.2 修改配置文件2.3 启动 Flink 集群2.4 提交一个应用程序1. Flink WebFlink 对标 Spark,Spark 自带了一个 Web 页面可以查看 Job 的执行情况,Flink 运行过程中,查看打印的 Log 中没有发现对应的 Web。Flink 中如果需要打开 WEB 页面,则需要添加一个依赖。<dependency> &原创 2021-03-21 17:13:45 · 459 阅读 · 0 评论 -
Flink--初识 DataStream Connector Kafka
目录1. 增加 POM 文件2. 使用 Kafka 作为 Source2.1 创建 Topic2.2 Code3. 使用 Kafka 作为 Sink3.1 CodeFlink 作为比较适合流式处理的计算框架,在流式处理当中,比较搭配的消息中间件为 Kafka本次使用的 Kafka 版本为 2.1.0-cdh6.2.0Flink 版本为 1.11.2,Scala 版本为 2.12.10官网Flink provides an Apache Kafka connector for reading d原创 2021-03-19 17:11:05 · 292 阅读 · 0 评论 -
Flink DataStream 常用 Transformations 算子、测流、自定义分区器
目录1. DataStream 常用 Transformations 算子1.1 Map1.2 FlatMap1.3 Filter1.4 KeyBy1.5 Reduce1.6 Fold1.7 Aggregations1.8 Union1.9 Connect1.10 Split + Select2. 测流2.1 Filter 分流2.2 Split + Select 分流2.3 测流输出3. 自定义分区器1. DataStream 常用 Transformations 算子数据hadoop,spar原创 2021-03-08 19:59:44 · 643 阅读 · 0 评论 -
Flink DataStream 数据源及并行度
目录1. Flink 内置数据源1.1 读取一个文件1.2 读取自定义数据1.3 读取 Socket 数据2. Flink 自定义数据源2.1 SourceFunction 实现读取 Mysql 数据2.2 ParallelSourceFunction 实现读取 Mysql 数据2.3 RichParallelSourceFunction 实现读取 Mysql 数据3. RichFunction一个 Flink 应用程序执行需要以下五个步骤:Obtain an execution environme原创 2021-02-18 19:36:36 · 840 阅读 · 0 评论 -
初识 Flink
初识 Flink按照惯例先介绍下官网Flink 官网1. 什么是 FlinkApache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态计算。Flink被设计成在所有常见的集群环境中运行,以内存速度和任何规模执行计算。Flink 用于处理 Unbounded 、Bounded 数据。Unbounded 数据指的是无边界的数据,实时数据。Bounded 数据指的是有边界的数据,离线数据。...原创 2021-02-17 20:53:44 · 171 阅读 · 0 评论