4、DataSet API编程

本文主要介绍Flink的DataSet API编程,涵盖概念、数据源、从集合和文件创建DataSet、各种转换操作(如map、filter、join等)以及数据输出、计数器、分布式缓存和广播变量的使用。
摘要由CSDN通过智能技术生成

本博客以scala编程概念为主

1、概念

官网链接
Flink中的DataSet程序是常规程序,可对数据集进行转换(filtering, mapping, joining, grouping)。最初从某些来源(sources)(by reading files, or from local collections)创建数据集。结果通过接收器返回,接收器可以例如将数据写入(分布式)文件或标准输出(例如命令行终端)。Flink程序可以在各种上下文中运行,独立运行或嵌入其他程序中。执行可以在本地JVM或许多计算机的群集中进行。

Source=>Flink(transformations)=>sink

2、flink综合java和scala开发的项目构建creenflow

1、创建一个空的scala工程
2、pom文件里添加

	<properties>
		<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
		<flink.version>1.9.0</flink.version>
		<scala.binary.version>2.11</scala.binary.version>
		<scala.version>2.11.12</scala.version>
	</properties>

可以在项目中新建java包;完整项目结构如下:
在这里插入图片描述

3、Data Source概述

1、基于文件

  • readTextFile(path)/ TextInputFormat-逐行读取文件,并将它们作为字符串返回。
  • readTextFileWithValue(path)/ TextValueInputFormat-逐行读取文件,并将它们作为StringValues返回。StringValues是可变字符串。
  • readCsvFile(path)/ CsvInputFormat-解析以逗号(或其他字符)分隔的字段的文件。返回元组,案例类对象或POJO的数据集。支持基本的Java类型及其与Value相对应的字段类型。
  • readFileOfPrimitives(path, delimiter)// PrimitiveInputFormat-解析以换行符(或其他char序列)定界的原始数据类型的文件,例如String或Integer使用给定的定界符。
  • readSequenceFile(Key, Value, path)// SequenceFileInputFormat-创建JobConf并从指定的路径中读取类型为SequenceFileInputFormat,Key类和Value类的文件,并将它们作为Tuple2 <Key,Value>返回。

2、基于集合

  • fromCollection(Iterable)-从Iterable创建数据集。Iterable返回的所有元素都必须是同一类型。

  • fromCollection(Iterator)-从迭代器创建数据集。该类指定迭代器返回的元素的数据类型。

  • fromElements(elements: _*)-从给定的对象序列创建数据集。所有对象必须具有相同的类型。

  • fromParallelCollection(SplittableIterator)-从迭代器并行创建数据集。该类指定迭代器返回的元素的数据类型。

  • generateSequence(from, to) -并行生成给定间隔中的数字序列。

3、通用

  • readFile(inputFormat, path)/ FileInputFormat-接受文件输入格式。

  • createInput(inputFormat)/ InputFormat-接受通用输入格式。

4、从集合创建DataSet的scala实现

package com.kun.flink.chapter04

import org.apache.flink.api.scala._


object DataSetDataSourceApp {
   
  def main(args: Array[String]): Unit = {
   
    val env = ExecutionEnvironment.getExecutionEnvironment
    fromCollection(env)
  }

  def fromCollection(env: ExecutionEnvironment): Unit = {
   
    val data = 1 to 10
    env.fromCollection(data).print()
  }
}
//结果
1
2
3
4
5
6
7
8
9
10

5、从集合创建DataSet的java实现

package com.kun.flink.chapter04;

import org.apache.flink.api.java.ExecutionEnvironment;

import java.util.ArrayList;
import java.util.List;

public class JavaDataSetDataSourceApp {
   
    public static void main(String[] args) throws Exception {
   
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        fromCollection(env);
    }
    public static void fromCollection(ExecutionEnvironment env) throws Exception {
   
        List<Integer> list = new ArrayList<Integer>();
        for (int i = 0; i <10 ; i++) {
   
            list.add(i);
        }
        env.fromCollection(list).print();
    }
}
//结果
0
1
2
3
4
5
6
7
8
9

6、从文件创建DataSet的scala实现

  def main(args: Array[String]): Unit = {
   
    val env = ExecutionEnvironment.getExecutionEnvironment
    textFile(env)
  }

  def textFile(env:ExecutionEnvironment):Unit = {
   
  //可以是也给文件也可以是一个文件夹
    val filePath="test_files\\test_file\\test01.txt"
    env.readTextFile(filePath).print()
  }
//结果
hello,welcome
hello,world,welcome

7、从文件创建DataSet的java实现

public static void main(String[] args) throws Exception {
   
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值