扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦
简介
我们知道flink对于外部数据源的操作可以通过自带的连接器,或者自定义sink和source实现数据的交互,那么为啥还需要异步IO呢?那时因为对于实时处理,当我们需要使用外部存储数据参与计算时,与外部系统之间的交互延迟对流处理的整个工作进度起决定性的影响。如果我们是使用传统方式mapfunction等算子里访问外部存储,实际上该交互过程是同步的:比如请求a发送到数据库,那么mapfunction会一直等待响应。在很多案例中,这个等待过程是非常浪费函数时间的。
异步IO原理
Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。流计算系统中经常需要与外部系统进行交互,比如需要查询外部数据库以关联上用户的额外信息。通常,我们的实现方式是向数据库发送用户a
的查询请求,然后