【Flink】Flink的简介和简单的使用

飝鱻.

已于 2022-02-09 00:48:54 修改

阅读量1k

点赞数 1

分类专栏： # Flink_Java 文章标签： flink 大数据 big data

于 2022-02-09 00:48:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/heiren_a/article/details/122831022

版权

Flink_Java 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Flink的简介和简单的使用

Flink的简介
创建项目
编写代码
- 批处理
- 流处理
打包运行
- 图形界面画的运行
- 命令行运行

Flink的简介

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。
Flink的主要特点
事件驱动

基于流的世界观：在 Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；实时数据是一个没有界限的流：这就是所谓的有界流和无界流

分层API：➢越顶层越抽象，表达含义越简明，使用越方便，越底层越具体，表达能力越丰富，使用越灵活

创建项目

在这里插入图片描述

修改pom文件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>FlinkTest</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.10.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.12</artifactId>
            <version>1.10.1</version>
        </dependency>
    </dependencies>

</project>

编写代码

批处理

数据展示

hadoop spark scala
flink hadoop scala
flink hadoop

具体代码

package WordCount;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

//批处理的WordCount程序
public class WordCountTest01 {
    public static void main(String[] args) throws Exception {
        //创建执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        //从文件中读取数据
        String inputPath = "E:\\IDEA\\IntelliJ IDEA 2019.1\\bm\\FlinkTest\\src\\main\\resources\\WordCount.txt";
        //dataSource其实就是一个dataSet
        DataSource<String> stringDataSource = env.readTextFile(inputPath);

        //对数据集来进行处理
        DataSet<Tuple2<String, Integer>> result = stringDataSource.flatMap(new MyFlatMapper())//按照空格来进行分词
                .groupBy(0)//按照第一个位置来进行分组
                .sum(1);//按照第二个位置的元素来进行聚合

        result.print();
    }

    //自定义类来实现FlatMapFunction接口
    //第一个String是输入的数据类型
    //第二个就是输出的数据类型
    public static class MyFlatMapper implements FlatMapFunction<String, Tuple2<String, Integer>> {

        @Override
        public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {
            //按照空格来进行分词
            String[] words = s.split(" ");
            //遍历所有word包装成二元组输出
            for (String word : words) {
                collector.collect(new Tuple2<>(word, 1));
            }
        }
    }
}

结果展示

流处理

具体代码

package WordCount;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

//流处理
public class WordCountStream {
    public static void main(String[] args) throws Exception {
        //创建流处理的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(8);//设置线程数

        //使用parameter tool工具从程序启动参数中提取配置
        ParameterTool parameterTool = ParameterTool.fromArgs(args);
        String host = parameterTool.get("host");
        int port = parameterTool.getInt("port");

        //从socket文本流读取数据
        DataStream<String> inputStream = env.socketTextStream(host, port);

        //基于数据流集训转换操作
        SingleOutputStreamOperator<Tuple2<String, Integer>> result = inputStream.flatMap(new WordCountTest01.MyFlatMapper())
                .keyBy(0)//与groupBy相似，按照key的hashCode
                .sum(1).setParallelism(3);

        result.print().setParallelism(1);

        //启动任务，否则不会执行
        env.execute();
    }
}

修改启动项
运行测试
先运行代码,然后在虚拟机中运行如下内容
在窗口输出内容，然后在控制台窗口结果

打包运行

在这里插入图片描述

图形界面画的运行

登录上WEBUI
将jar包提交
填上参数
点击show plan可以看到每步的分区数
点击提交，如果一直是转圈，说明是词到不够，我们可以增加后再次运行
运行成功的样子，这是就可以通过Linux来输入流数据了
发现当我们输入时数据是在变化的
如何查看结果？

命令行运行

运行命令：bin/flink run -c WordCount.WordCountStream -p 2 /home/data/FlinkTest.jar --host 192.168.0.149 --port 7777
查看所有正在运行的job：bin/flink list
杀死job：``
查看已经杀死的job：``

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Flink】Flink的简介和简单的使用

Flink的简介和简单的使用Flink的简介创建项目编写代码批处理流处理打包运行图形界面画的运行命令行运行Flink的简介Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。Flink的主要特点事件驱动基于流的世界观：在 Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；实时数据是一个没有界限的流：这就是所谓的有界流和无界流分层API：➢越顶层越抽象，表达含义越简明，使用越方便，越底层越具体，表达能力越丰富，使用越灵活创建项目.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。