Flink的DataSet基本算子总结_flink dateset 算子详解

最新推荐文章于 2024-08-16 15:14:35 发布

2301_79985178

最新推荐文章于 2024-08-16 15:14:35 发布

阅读量400

点赞数 4

分类专栏：程序员文章标签： flink python windows

本文链接：https://blog.csdn.net/2301_79985178/article/details/138224484

版权

});
mapPartitionData.print();


## 2、Filter与Distinct

//获取运行环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

ArrayList data = new ArrayList();
data.add(“I love Beijing”);
data.add(“I love China”);
data.add(“Beijing is the capital of China”);
DataSource text = env.fromCollection(data);

DataSet flatMapData = text.flatMap(new FlatMapFunction<String, String>() {

public void flatMap(String data, Collector<String> collection) throws Exception {
	String[] words = data.split(" ");
	for(String w:words){
		collection.collect(w);
	}
}

});

//去掉重复的单词
flatMapData.distinct().print();
System.out.println(“*********************”);

//选出长度大于3的单词
flatMapData.filter(new FilterFunction() {

public boolean filter(String word) throws Exception {
	int length = word.length();
	return length>3?true:false;
}

}).print();


## 3、Join操作

//获取运行的环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//创建第一张表：用户ID 姓名
ArrayList<Tuple2<Integer, String>> data1 = new ArrayList<Tuple2<Integer,String>>();
data1.add(new Tuple2(1,“Tom”));
data1.add(new Tuple2(2,“Mike”));
data1.add(new Tuple2(3,“Mary”));
data1.add(new Tuple2(4,“Jone”));
//创建第二张表：用户ID 所在的城市
ArrayList<Tuple2<Integer, String>> data2 = new ArrayList<Tuple2<Integer,String>>();
data2.add(new Tupl

最低0.47元/天解锁文章

2301_79985178

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
3
评论
Flink的DataSet基本算子总结_flink dateset 算子详解

);//获取运行环境});//去掉重复的单词//选出长度大于3的单词}).print();//获取运行的环境//创建第一张表：用户ID 姓名//创建第二张表：用户ID 所在的城市data2.add(new Tuple2(1,“北京”));data2.add(new Tuple2(2,“上海”));data2.add(new Tuple2(3,“广州”));
复制链接

扫一扫

专栏目录