【Flink】flink流批一体（3）

package DataStream;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import java.util.Arrays;

/**
 * description flink的基于集合的source演示
 * env.fromElements(可变参数)
 * env.fromCollection(各种集合)
 * env.generateSequence(开始,结束)
 * env.fromSequence(开始,结束)
 * @date 2022/4/25
 */
public class DataSourceCollectionDemo {
    public static void main(String[] args) throws Exception {
        //1、env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
        //2、source
        //2.1 env.fromElements()
        DataStream<String> ds1 = env.fromElements("spark","flink","hadoop","hive");
        //2.2 env.fromCollection
        String [] s1 = {"java","flume","azkaban","sqoop"};
        DataStream<String> ds2 = env.fromCollection(Arrays.asList(s1));
        //2.3 env.generateSequence
        DataStream<Long> ds3 = env.generateSequence(1,10);
        //2.4 env.fromSequence
        DataStream<Long> ds4 = env.fromSequence(20,30);
        //3、transformation
        //4、sink
        ds1.print();
        ds2.print();
        ds3.print();
        ds4.print();
        //5、execute
        env.execute();
    }
}

输出结果

基于文件的Source

api

env.readTextFile(本地/HDFS/文件夹/压缩文件)

演示

package DataStream;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import java.util.Arrays;

/**
 * description flink的基于文件的source演示
 * env.readTextFile(本地/HDFS/文件夹/压缩文件)
 * @date 2022/4/25
 */
public class DataSourceFileDemo {
    public static void main(String[] args) throws Exception {
        //1、env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
        //2、source
        //2.1 读取本地文件
        DataStream<String> ds1 = env.readTextFile("D:\\wordcount\\input\\a.txt");
        //2.2 读取本地文件夹
//        DataStream<String> ds2 = env.readTextFile("F:\\0操作地址\\wordcount\\input");
        //2.3 读取hdfs文件
//        DataStream<String> ds3 = env.readTextFile("hdfs://hadoop01:9000/wordcount/input/a.txt");
        //2.4 读取hdfs文件夹
//        DataStream<String> ds4 = env.readTextFile("hdfs://hadoop01:9000/wordcount/input");
        //2.5 读取压缩文件
//        DataStream<String> ds5 = env.readTextFile("F:\\0操作地址\\wordcount\\a.txt.gz");
        //2.6
//        DataStream<String> ds6 = env.readTextFile("hdfs://hadoop01:9000/wordcount/input/a.txt.gz");
        //3、transformation
        //4、sink
        ds1.print();
//        ds2.print();
//        ds3.print();
//        ds4.print();
//        ds5.print();
//        ds6.print();
        //5、execute
        env.execute();
    }
}

准备gz格式压缩文件

https://pan.baidu.com/s/1Nv8cIICk4HwNwdsdgkoFjA?pwd=1234 提取码：1234

查看结果

截取其中的一个

基于socket的source

socket是指网络通讯，需要有一个发送端一个接送端，类似于插头和插座（socket），用于和一些智能硬件的对接。比如门禁的人脸机就是一个智能设备，每个人脸机都有一个ip地址，也有一个端口，根据ip地址和端口号就可以和这个人脸机进行通讯。

1 模拟socket通讯，安装nc（没有四级标题了，就用符号了）

nc是netcat的简称，可以利用它向某台主机的某个端口发送数据，模拟socket通讯的发送端，也就是作为source

2 启动nc，发送数据，相当于socket通讯的发送端

3 使用telnet来接收数据，测试socket是否工作正常

linux主机下，也可以安装telnet进行测试

4 编写flink代码，作为socket通讯的接收端，接收发送的数据进行处理

package DataStream;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExec

最低0.47元/天解锁文章

星欲冷hx

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Flink】flink流批一体（3）

flink流批一体，在windows和虚拟机主机安装telnet，Data Source。Transformations整体分类，合并拆分union和connect，Select和Side Outputs。分区rebalance重平衡分区。Data Sink。
复制链接

扫一扫