Flink的官网:https://flink.apache.org/
使用的软件:IntelliJ IDEA Community Edition
CoreAPI:
- DataSet:专门处理离线数据,给离线数据处理设计了更多有针对性的API. env:ExecutionEnvironment
- DataStream:一般用于处理流式数据,也可以处理离线数据env:StreamExecutionEnvironment
一、创建SourceTest文件
练习一
读取目录下的文件并打印输出
package cn.tedu.dataset;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
public class SourceTest {
public static void main(String[] args) throws Exception {
//1.获取执行环节
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
//2.获取数据源
DataSource<String> source = env.readTextFile("data.txt");
//3.转化数据
//4.输出结果
source.print();
//5.触发执行程序
//在datasetAPI中一般不写第五步
}
}
需要记住的点:
- throws Exception抛出异常是在第四步鼠标放在print右边使用Alt+回车,选择第一个选项后出现,之前print底下有红色的波浪线
- public static void main(String[] args)直接写个main再回车就能出现
- 前两步可以先写等号右边的,再使用Alt+Shift+L,定义名称
练习二
自己定义一个List并打印输出
package cn.tedu.dataset;
import org.apache.flink.api.java.ExecutionEnvironment