flink(二):数据接入DataSource和数据输出DataSink

说明

  • 本博客每周五更新一次。
  • flink数据处理过程分为三部分:DataSource、Transformation、DataSink,分别处理数据的接入、处理和输出,由于处理部分内容较多,下次分享,本文只介绍数据接入和数据输出。

DataSource 数据接入

内置数据源

文件

  • 可以直接读取文件,也可指定csvInputFormat读取文件。
env.readTextFile("/user/local/data_example.log")
env.readFile(new CsvInputFormat(new Path("/user/local/data_example.csv")))
  • readFile方法可以指定读取类型(WatchType),检测文件变换时间间隔(interval)、文件路径过滤条件(FilePathFilter)等参数。
  • WatchType分为两中类型
    • PROCESS_CONTINUOUSLY:一旦检测文件发生变化,Flink会将该文件全部内容加载到Flink系统中进行处理。
    • PROCESS_ONCE:文件发生变化时,只会将变化的数据读取至Flink,这种情况,数据只会被读取和处理一次。

socket

  • StreamExecutionEnvironment调用socketTextStream方法,参数设定ip和端口、字符串切割符、和最大重试次数(0时不会重试)。
env.socketTextStream("localhost","9999");

flink集合数据源

  • 直接将Java或Scala程序中集合类(Collection)转换为DataStream数据集。注意:集合内元素的数据类型必须一致。
//元素集合
val dataStream=env.fromElements(Tuple2(1L,3L),Tuple2(1L,5L),Tuple2(1L,7L),Tuple2(1L,4L),Tuple2(1L,2L));

//数组
String[] elements=new String[]{"hello","flink"};
DataStream<String> dataStream=new env.fromCollection(Arrays.asList(elements));
//集合
List<String> arrayList=new ArrayList<>();
arrayList.add("hello flink");
DataStream<String> dataList=env.fromCollection(arrayList);

第三方数据源

  • 主要依赖于第三方数据源连接器(Connecter)实现。

kafka Connector

  • 导包
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka_2.12</artifactId>
    <version>1.12.2</version>
</dependency>
  • java代码
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.setProperty("group.id", "flink-group");
//数据源
String topic="test-topic";
@SuppressWarnings("deprecation")
FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>(topic, new SimpleStringSchema(), props);
  • 自定义schema实现传入数据转换为定制结构,主要实现Deserializaion
    Schema接口来实现
    • deserialize():完成数据从byte[]数据类型转化为SourceEvent的反序列化操作。
    • GetProducedType():将数据类型转换成Flink系统所支持的数类型,如下实例的TypeInformation
public class SourceEventSchema implements DeserializationSchema<SourceEvent>{

  private static final log serialVersionUID=6151800L;
  @Override
  public SourceEvnet deserialize(byte[] message)throws IOException{
    return SourceEvent.fromString(new String(message));
  }
  @Override
  public boolean isEndOfStream(SourceEvent nextElement){
    return false;
  }
  @Override
  public TypeInformation<SourceEvent> getProducedType(){
    return TypeInformation.of(SourceEvent.class)
  }
}

解析类

  • KeyedDeserializationSchema

    • deserialize()定义了T deserialize(byte[] messageKey,byte[] message,String topic,int partition,long offset)
  • TypeInformationSerializationSchema

  • JsonDeserializationSchema

  • AvroDeserializationSchema

自定义数据源连接器

  • 定义完DataSource后,可通过使用SteamExecutionEnvironment的addSources方法添加数据源。定义各类DataSource方法如下:

单线程数据源连接器

  • 实现SourceFunction

并发数据源连接器

  • ParallelSourceFunction接口
  • RichParallelSourceFunction类

DataSink 数据输出

  • 经过各种数据transformation后形成需要的数据集,一般会将结果输出到外部存储介质或下游的消息中间件,flink中将DataStream数据输出到外部系统的过程定义为DataSink。Flink内部定义的第三方外部系统连接器当前有:Kafka、Cassandra、Kinesis、Elasticsearch、hadoop FileSystem、RabbitMQ、NIFI等。

基本输出类型

  • 基本数据输出包含文件输出、客户端输出、socket网络端口等。实例代码如下:
val personStream = env.fromElements(("Alex",18),("Peter",43))
//通过writeAsCsv方法将数据转换为CSV文件输出,并执行输出模式为OVERWRITE
personStream.writeAsCsv("file:///path/to/person.csv",WriteMode.OVERWRITE)
//通过writeAsText方法将数据直接输出到本地文件系统
personStream.writeAsText("file:///path/to/person.txt")
//通过writeToSocket方法将DataStream数据集输出到指定socket端口
personStream.writeToSocket(outputHost,outputPort,new SimpleStringSchema())

第三放输出类型

  • Flink体统了DataSink类操作算子处理数据的输出,所有的数据输出都基于实现SinkFunction完成定义。如Flink中定义FlinkKafkaProducer来完成将数据输出到Kafka的操作。

总结

  • 通过学习和理解大型项目,借鉴其中精华,越来越发觉设计对于项目开发的重要性,根据需求确定功能模块,然后抽象各个模块的功能再实现,所有项目都基于这样的思想和讨论,这就是面向对象编码在项目架构上的实际应用。
  • 加油,好好学习,天天向上。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值