Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。
背景
对于实时处理,当需要使用外部存储数据染色的时候,需要小心对待,不能让与外部系统之间的交互延迟对流处理的整个工作进度起决定性的影响。如果我们是使用传统方式mapfunction等算子里访问外部存储,实际上该交互过程是同步的:比如请求a发送到数据库,那么mapfunction会一直等待响应。在很多案例中,这个等待过程是非常浪费函数时间的。
虽然增大MapFunction的并行度可以改善吞吐量,但是必然带来更大的资源开销,需要更多的task,显然不适用。
然而Flink实现了异步并发请求这个功能,大大的重复利用了等待时间,效率非常高(原理图如下)。与数据库异步交互,意味着单个函数实例可以并发处理很多请求,同时并发接收响应。那么,等待时间由于发送其它请求和接收其它响应,被重复使用而节省了。至少,等待时间在多个请求上被摊销。这就使得很多使用案例具有更高的吞吐量。
Flink异步IO使用前提
实现flink的异步IO功能,需要所连接的数据库支持异步客户端。目前很多流行的数据库支持这样的客户端,例如Vertx。
假如没有异步客户端,也可以创建多个同步客户端,放到线程池里,使用线程池来完成异步功能。当然,该种方式相对于异步客户端更低效。
Flink异步IO使用API
flink异步IO的API支持用户在data stream中使用异步请求客户端。
假设有一个目标数据库的异步客户端,需要三个部分来实现对数据库的异步I / O流转换:
- 实现AsyncFunction,该函数实现了请求分发的功能
- 一个callback回调,该函数取回操作的结果,然后传递给ResultFuture。
- 对DataStream使用异步IO操作
基本模板案例:
// This example implements the asynchronous request and callback with Futures that have the
// interface of Java 8's futures (which is the same one followed by Flink's Future)
/**
* An implementation of the 'AsyncFunction' that sends requests and sets the callback.
*/
class AsyncDatabaseRequest extends RichAsyncFunction<String, Tuple2<String, String>> {
/** The database specific client that can issue concurrent requests with callbacks */
private transient DatabaseClient client;