深入浅出 Flink 03 之 Sink

最新推荐文章于 2022-03-30 21:01:26 发布

海兵-2016

最新推荐文章于 2022-03-30 21:01:26 发布

阅读量437

点赞数

分类专栏： Flink 文章标签： flink

本文链接：https://blog.csdn.net/weixin_40503579/article/details/118675717

版权

Flink 03 之 Sink

1.1 print() / printToErr()

打印每个元素的toString()方法的值到标准输出或者标准错误输出流中

1.2 writeAsText()

/**
* 数据源：1 2 3 4 5.....源源不断过来 
* 通过map打印一下接受到数据 
* 通过filter过滤一下数据，我们只需要偶数
 */
public class WriteTextDemo {
public static void main(String[] args) throws Exception { 
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 

DataStreamSource<Long> numberStream = env.addSource(new MyNoParalleSource()).setParallelism(1); 

SingleOutputStreamOperator<Long> dataStream = numberStream.map(new MapFunction<Long, Long>() { 
@Override public Long map(Long value) throws Exception {
 System.out.println("接受到了数据："+value); return value;
		  } 
	  }
  );
SingleOutputStreamOperator<Long> filterDataStream = dataStream.filter(new FilterFunction<Long>() { 
		@Override public boolean filter(Long number) throws Exception { 
		return number % 2 == 0; 
		} 
	}
);
filterDataStream.writeAsText("D:\\nx\\flinklesson\\src\\output\\test")
		.setParall elism(1);
env.execute("StreamingDemoWithMyNoPralalleSource"); 
	} 
}

1.3 Flink提供的sink

Apache Kafka (source/sink)
Apache Cassandra (sink)
Amazon Kinesis Streams (source/sink)
Elasticsearch (sink)
Hadoop FileSystem (sink)
RabbitMQ (source/sink)
Apache NiFi (source/sink)
Twitter Streaming API (source)
Google PubSub (source/sink)

1.4 DataSet算子操作

算子概览
Map：输入一个元素，然后返回一个元素，中间可以做一些清洗转换等操作
FlatMap：输入一个元素，可以返回零个，一个或者多个元素
MapPartition：类似map，一次处理一个分区的数据【如果在进行map处理的时候需要获取第三方资源
链接，建议使用MapPartition】
Filter：过滤函数，对传入的数据进行判断，符合条件的数据会被留下
Reduce：对数据进行聚合操作，结合当前元素和上一次reduce返回的值进行聚合操作，然后返回一个
新的值
Aggregate：sum、max、min等
Distinct：返回一个数据集中去重之后的元素，data.distinct()
Join：内连接
OuterJoin：外链接
Cross：获取两个数据集的笛卡尔积
Union：返回两个数据集的总和，数据类型需要一致
First-n：获取集合中的前N个元素
Sort Partition：在本地对数据集的所有分区进行排序，通过sortPartition()的链接调用来完成对多个字
段的排序
MapPartition

public class MapPartitionDemo { public static void main(String[] args) throws Exception{ 
//获取运行环境 ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 
ArrayList<String> data = new ArrayList<>(); 
data.add("hello you"); 
data.add("hello me"); 
DataSource<String> text = env.fromCollection(data);
/*text.map(new MapFunction<String, String>() { 
	@Override public String map(String value) throws Exception { 
	//获取数据库连接--注意，此时是每过来一条数据就获取一次链接 
	//处理数据
	 //关闭连接
	  return value; 
	  } 
});*/
DataSet<String> mapPartitionData = text.mapPartition(new MapPartitionFunction<String, String>() { 
@Override public void mapPartition(Iterable<String> values, Collector<String> out) throws Exception { 
//获取数据库连接--注意，此时是一个分区的数据获取一次连接【优点，每个分区获取 一次链接】
 //values中保存了一个分区的数据
//处理数据 
Iterator<String> it = values.iterator(); 
while (it.hasNext()) { 
		String next = it.next(); 
		String[] split = next.split("\\W+"); 
		for (String word : split) { 
			out.collect(word); 
			} 
		}
//关闭链接 
	} 
});
mapPartitionData.print(); 
		}
 }

distinct

/**
 * 对数据进行去重 
 * */ 
 public class DistinctDemo {
  public static void main(String[] args) throws Exception{ 
  //获取运行环境 
  ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();  
   ArrayList<String> data = new ArrayList<>();
   data.add("you jump"); data.add("i jump");
    DataSource<String> text = env.fromCollecti

最低0.47元/天解锁文章

海兵-2016

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入浅出 Flink 03 之 Sink

Flink 03 之 Sink1.1 print() / printToErr()1.2 writeAsText()1.3 Flink提供的sink1.4 DataSet算子操作1.5 Flink之广播变量1.6 Flink之Counter（计数器）1.1 print() / printToErr()打印每个元素的toString()方法的值到标准输出或者标准错误输出流中1.2 writeAsText()/*** 数据源：1 2 3 4 5.....源源不断过来 * 通过map打印一下接受到
复制链接

扫一扫