Flink的DataSet基本算子总结_flink dateset 算子详解

});
mapPartitionData.print();


## 2、Filter与Distinct



//获取运行环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

ArrayList data = new ArrayList();
data.add(“I love Beijing”);
data.add(“I love China”);
data.add(“Beijing is the capital of China”);
DataSource text = env.fromCollection(data);

DataSet flatMapData = text.flatMap(new FlatMapFunction<String, String>() {

public void flatMap(String data, Collector<String> collection) throws Exception {
	String[] words = data.split(" ");
	for(String w:words){
		collection.collect(w);
	}
}

});

//去掉重复的单词
flatMapData.distinct().print();
System.out.println(“*********************”);

//选出长度大于3的单词
flatMapData.filter(new FilterFunction() {

public boolean filter(String word) throws Exception {
	int length = word.length();
	return length>3?true:false;
}

}).print();


## 3、Join操作



//获取运行的环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//创建第一张表:用户ID 姓名
ArrayList<Tuple2<Integer, String>> data1 = new ArrayList<Tuple2<Integer,String>>();
data1.add(new Tuple2(1,“Tom”));
data1.add(new Tuple2(2,“Mike”));
data1.add(new Tuple2(3,“Mary”));
data1.add(new Tuple2(4,“Jone”));
//创建第二张表:用户ID 所在的城市
ArrayList<Tuple2<Integer, String>> data2 = new ArrayList<Tuple2<Integer,String>>();
data2.add(new Tuple2(1,“北京”));
data2.add(new Tuple2(2,“上海”));
data2.add(new Tuple2(3,“广州”));
data2.add(new Tuple2(4,“重庆”));

//实现join的多表查询:用户ID 姓名 所在的程序
DataSet<Tuple2<Integer, String>> table1 = env.fromCollection(data1);
DataSet<Tuple2<Integer, String>> table2 = env.fromCollection(data2);

table1.join(table2).where(0).equalTo(0)
/*第一个Tuple2<Integer,String>:表示第一张表

  • 第二个Tuple2<Integer,String>:表示第二张表
  • Tuple3<Integer,String, String>:多表join连接查询后的返回结果 */
    .with(new JoinFunction<Tuple2<Integer,String>, Tuple2<Integer,String>, Tuple3<Integer,String, String>>() {
    public Tuple3<Integer, String, String> join(Tuple2<Integer, String> table1,
    Tuple2<Integer, String> table2) throws Exception {
    return new Tuple3<Integer, String, String>(table1.f0,table1.f1,table2.f1);
    } }).print();

## 4、笛卡尔积



ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//创建第一张表:用户ID 姓名
ArrayList<Tuple2<Integer, String>> data1 = new ArrayList<Tuple2<Integer,String>>();
data1.add(new Tuple2(1,“Tom”));
data1.add(new Tuple2(2,“Mike”));
data1.add(new Tuple2(3,“Mary”));
data1.add(new Tuple2(4,“Jone”));

//创建第二张表:用户ID 所在的城市
ArrayList<Tuple2<Integer, String>> data2 = new ArrayList<Tuple2<Integer,String>>();
data2.add(new Tuple2(1,“北京”));
data2.add(new Tuple2(2,“上海”));
data2.add(new Tuple2(3,“广州”));
data2.add(new Tuple2(4,“重庆”));

//实现join的多表查询:用户ID 姓名 所在的程序
DataSet<Tuple2<Integer, String>> table1 = env.fromCollection(data1);
DataSet<Tuple2<Integer, String>> table2 = env.fromCollection(data2);

//生成笛卡尔积
table1.cross(table2).print();


## 5、First-N



ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//这里的数据是:员工姓名、薪水、部门号
DataSet<Tuple3<String, Integer,Integer>> grade =
env.fromElements(new Tuple3<String, Integer,Integer>(“Tom”,1000,10),
new Tuple3<String, Integer,Integer>(“Mary”,1500,20),
new Tuple3<String, Integer,Integer>(“Mike”,1200,30),
new Tuple3<String, Integer,Integer>(“Jerry”,2000,10));

//按照插入顺序取前三条记录
grade.first(3).print();
System.out.println(“**********************”);

//先按照部门号排序,在按照薪水排序
grade.sortPartition(2, Order.ASCENDING).sortPartition(1, Order.ASCENDING).print();
System.out.println(“**********************”);

//按照部门号分组,求每组的第一条记录
grade.groupBy(2).first(1).print();


## 6、外链接操作



ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//创建第一张表:用户ID 姓名
ArrayList<Tuple2<Integer, String>> data1 = new ArrayList<Tuple2<Integer,String>>();
data1.add(new Tuple2(1,“Tom”));
data1.add(new Tuple2(3,“Mary”));
data1.add(new Tuple2(4,“Jone”));

//创建第二张表:用户ID 所在的城市
ArrayList<Tuple2<Integer, String>> data2 = new ArrayList<Tuple2<Integer,String>>();
data2.add(new Tuple2(1,“北京”));
data2.add(new Tuple2(2,“上海”));
data2.add(new Tuple2(4,“重庆”));

//实现join的多表查询:用户ID 姓名 所在的程序
DataSet<Tuple2<Integer, String>> table1 = env.fromCollection(data1);
DataSet<Tuple2<Integer, String>> table2 = env.fromCollection(data2);

//左外连接
table1.leftOuterJoin(table2).where(0).equalTo(0)
.with(new JoinFunction<Tuple2<Integer,String>, Tuple2<Integer,String>, Tuple3<Integer,String,String>>() {

	public Tuple3<Integer, String, String> join(Tuple2<Integer, String> table1,
			Tuple2<Integer, String> table2) throws Exception {
		// 左外连接表示等号左边的信息会被包含
		if(table2 == null){
			return new Tuple3<Integer, String, String>(table1.f0,table1.f1,null);
		}else{
			return new Tuple3<Integer, String, String>(table1.f0,table1.f1,table2.f1);
		}
	}
}).print();

System.out.println(“***********************************”);
//右外连接
table1.rightOuterJoin(table2).where(0).equalTo(0)
.with(new JoinFunction<Tuple2<Integer,String>, Tuple2<Integer,String>, Tuple3<Integer,String,String>>() {

	public Tuple3<Integer, String, String> join(Tuple2<Integer, String> table1,
			Tuple2<Integer, String> table2) throws Exception {
		//右外链接表示等号右边的表的信息会被包含
		if(table1 == null){
			return new Tuple3<Integer, String, String>(table2.f0,null,table2.f1);
		}else{
			return new Tuple3<Integer, String, String>(table2.f0,table1.f1,table2.f1);
		}
	}
}).print();

System.out.println(“***********************************”);

//全外连接
table1.fullOuterJoin(table2).where(0).equalTo(0)

给大家的福利

零基础入门

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

同时每个成长路线对应的板块都有配套的视频提供:

在这里插入图片描述

因篇幅有限,仅展示部分资料

网络安全面试题

绿盟护网行动

还有大家最喜欢的黑客技术

网络安全源码合集+工具包

所有资料共282G,朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》,可以扫描下方二维码领取(如遇扫码问题,可以在评论区留言领取哦)~

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值