前一阵子用到了阿里的blink处理流计算,对一些流计算的api也算是较熟悉了,大家都知道blink在今年3月份已被阿里开源,贡献到了开源的flink中,blink的优势在这里不在多描述了像支持sql编程等,相反我虽然用了blink,但是对开源的flink确实还没有在实际的业务场景中用到,但是它的实用价值也是非常高的,高吞吐、低延迟等特性,所以就自己去官网看了下,在本地搭建了一个。
官网地址:https://flink.apache.org/zh/flink-applications.html
这里我就自己简单的总结下开源的flink搭建流程(纯粹个人喜好玩玩。。)
首先我们构建一个maven项目,我是用的springboot,这里需要导入的pom配置如下:
<dependencies>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-java_2.11</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-clients_2.11</artifactId>
<version>${flink.version}</version>
</dependency>
</dependencies>
上面的这些依赖添加完后,我们就可以开始撸码了。
下面简单的对这个flink流计算做下简单的讲解,既然是流数据肯定是有输入/输出的,flink的流数据输入支持多种格式类型:list,文本,自定义元素、监听端口输入都可以。
下面这个demo我们就以自定义元素来写的:
1.首先我们以流计算常用的入门程序wordCount来模拟编码,单独创建一个工具类
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;
/**
* 数据trans,输入一条数据拆分成多条输出
*/
public class LineSpliter implements FlatMapFunction<String, Tuple2<String,Integer>> {
@Override
public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {
String[] split = s.toLowerCase().split("\\W+");
for (String ss:split){
if (ss.length()>0){
collector.collect(new Tuple2<>(s,1));
}
}
}
}
2.然后我们来创建一个main方法:
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.tuple.Tuple2;
/**
* Skeleton for a Flink Streaming Job.
*
* <p>For a tutorial how to write a Flink streaming application, check the
* tutorials and examples on the <a href="http://flink.apache.org/docs/stable/">Flink Website</a>.
*
* <p>To package your application into a JAR file for execution, run
* 'mvn clean package' on the command line.
*
* <p>If you change the name of the main class (with the public static void main(String[] args))
* method, change the respective entry in the POM.xml file (simply search for 'mainClass').
*/
public class StreamingJob {
public static void main(String[] args) throws Exception {
// set up the streaming execution environment
final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
DataSet<String> stringDataSource = env.fromElements("hello","word","hello","count");
DataSet<Tuple2<String, Integer>> sum = stringDataSource.flatMap(new LineSpliter()).groupBy(0).sum(1);
//打印到控制台
sum.print();
//env.execute("Flink Streaming Java API Skeleton");
}
}
然后小伙伴们就可以运行了,控制台会输出如下每个单词的出现的次数
是不是很简单。。。。。
程序写完了,那我们是不是玩玩它的控制台。。
大家可以到官网上下载:
解压后到bin目录下执行:./start-local.bat 启动本地模式
然后mvn clean package 将程序打个jar包。
浏览器地址输入:localhost:8081 启动flink仪表盘
点击Submit new Job-》add new
ok!
关注我
下一篇我们参照官网的资料写一下连接wiki的实现跟kafka的对接实现