Flink学习(1)——基础入门与架构了解

本文详细介绍了Apache Flink的简单应用,包括批处理和流处理模式下的词频统计Demo,展示了如何创建并运行Flink任务。同时,深入探讨了Flink的整体架构,包括API&Libraries层、Runtime层和物理运行环境层,解释了Job提交流程、任务调度原理以及任务执行图的优化。通过对Flink架构的解析,帮助读者理解其分布式计算引擎的工作机制。

目录

1. 简单介绍

2. 简单开发词频统计demo

3. flink整体架构简介

3.1 API&Libraries层

3.2 Runtime层

3.3 物理运行环境层

4. Flink运行时架构

4.1 运行时核心组件

4.2 job提交流程

4.3 任务调度原理

4.4 任务执行图优化


1. 简单介绍

Apache Flink是一个流式数据处理的框架和分布式计算引擎,支持无界和有界的流式数据处理计算,同时支持批式数据处理计算,是一个。

flink是以事件驱动的,每当数据流中传递进来一个数据后,就会触发flink中的计算逻辑。使用flink最大的优势就是其可以保证低延迟、高吞吐以及计算结果的正确性。

 

2. 简单开发词频统计demo

1. 首先创建maven项目,然后引入jar包依赖

    <dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.12</artifactId>
            <version>1.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.commons</groupId>
            <artifactId>commons-lang3</artifactId>
            <version>3.10</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka-0.11_2.12</artifactId>
            <version>1.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.bahir</groupId>
            <artifactId>flink-connector-redis_2.11</artifactId>
            <version>1.0</version>
        </dependency>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.44</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-statebackend-rocksdb_2.12</artifactId>
            <version>1.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner_2.12</artifactId>
            <version>1.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner-blink_2.12</artifactId>
            <version>1.10.1</version>
        </dependency>
    </dependencies>

2. 简单入门开发demo——词频统计

(1)批处理模式的flink开发:

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

/**
 * @ClassName WordCount
 * @Description: 批处理模式下的wordcount实例,在flink中,批处理一般常用于针对离线数据计算
 * @Author dinggang
 * @Date 2020/12/3 21:53
 * @Modified By:
 * @Version V1.0
 */
public class WordCount {

    public static void main(String[] args) throws Exception {
        //首先,创建flink批处理执行环境
        ExecutionEnvironment environment = ExecutionEnvironment.getExecutionEnvironment();
        //从文本文件中按行读取数据。这里是创建数据源操作
        DataSource<String> stringDataSource = environment.readTextFile("D:\\idea项目库\\flink_java_study\\src\\main\\resources\\word.txt");
        //对数据集进行处理,按空格分隔,并转换为(word,1)形式的二元组。flatMap方法就表示将数据打散并转化为想要的中间数据格式
        AggregateOperator<Tuple2<String, Integer>> sum = stringDataSource.flatMap(new MyFlatMapper())
                /*
                调用groupBy方法,对每个word进行分组,该操作相当于将同一个word分为一组
                参数0表示取二元组Tuple2中的第几个数据,也就是数据下标
                 */
                .groupBy(0)
                /*
                分组后求和,最终计算步骤,统计求和,这里的参数表示是针对二元组中的那个数据进行计算
                参数含义同上
                 */
                .sum(1);

        /*
        sum就是最后的计算结果,在这里输出查看
         */
        sum.print();
    }

    /*
    自定义FlatMapFunction,泛型中的第一个类表示输入
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值