![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink
JavaGod
本人是Java技术的忠实粉丝,Hadoop生态圈技术爱好者,希望热爱技术的有志之士进行交流互动。
展开
-
Flink动态表的连续查询(Continuous Queries on Dynamic Tables)
Apache Flink 非常适用于流分析应用程序,因为它支持事件时间语义,确保只处理一次,以及同时实现了高吞吐量和低延迟。因为这些特性,Flink 能够近实时对大量的输入数据计算出一个确定和精确的结果,并且在发生故障的时候提供一次性语义。Flink 的核心流处理 API,DataStream API,非常具有表现力,并且为许多常见操作提供了原语。在其他特性中,它提供了高度可定制的窗口逻辑,不...原创 2019-01-25 15:04:04 · 725 阅读 · 1 评论 -
通过Flink将数据以压缩的格式写入HDFS
在Flink中我们可以很容易的使用内置的API来读取HDFS上的压缩文件,内置支持的压缩格式包括.deflate,.gz, .gzip,.bz2以及.xz等。但是如果我们想使用Flink内置sink API将数据以压缩的格式写入到HDFS上,好像并没有找到有API直接支持(如果不是这样的,欢迎留言纠正)。本文将介绍如何将数据以gz压缩格式将处理后的数据写入到HDFS上。主要实现代码如下:...原创 2019-01-25 15:07:01 · 5193 阅读 · 2 评论 -
Apache Flink数据流容错机制
Introduce Apache Flink 提供了可以恢复数据流应用到一致状态的容错机制。确保在发生故障时,程序的每条记录只会作用于状态一次(exactly-once),当然也可以降级为至少一次(at-least-once)。 容错机制通过持续创建分布式数据流的快照来实现。对于状态占用空间小的流应用,这些快照非常轻量,可以高频率创建而对性能影响很小。流计算应用的状态保存在一个可配置的...原创 2019-01-25 15:08:20 · 241 阅读 · 0 评论 -
Flink是如何与YARN进行交互的
YRAN客户端需要访问Hadoop的相关配置文件,从而可以连接YARN资源管理器和HDFS。它使用下面的规则来决定Hadoop配置: 1、判断YARN_CONF_DIR,HADOOP_CONF_DIR或HADOOP_CONF_PATH等环境变量是否设置了(按照这些变量的顺序判断)。如果它们中有一个被设置了,那么就会读取其中的配置。 2、如果上面的规则失败了(如果正确安装了 YA...原创 2019-01-28 10:41:04 · 696 阅读 · 0 评论 -
Apache Flink:Table API和SQL发展现状概述
Flink Table API Apache Flink对SQL的支持可以追溯到一年前发布的0.9.0-milestone1版本。此版本通过引入Table API来提供类似于SQL查询的功能,此功能可以操作分布式的数据集,并且可以自由地和Flink其他API进行组合。Tables在发布之初就支持静态的以及流式数据(也就是提供了DataSet和DataStream相关APIs)。我们可以将Da...原创 2019-01-28 10:51:25 · 387 阅读 · 0 评论 -
Flink Streaming中实现多路文件输出
有时候我们需要根据记录的类别分别写到不同的文件中去,正如本博客的 《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)》《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)》以及《Spark多文件输出(MultipleOutputFormat)》等文章提到的类似。那么如何在Flink ...原创 2019-01-28 10:52:31 · 2382 阅读 · 0 评论 -
使用Flink读取Kafka中的消息
和Spark一样,Flink内置提供了读/写Kafka Topic的Kafka连接器(Kafka Connectors)。Flink Kafka Consumer和Flink的Checkpint机制进行了整合,以此提供了exactly-once处理语义。为了实现这个语义,Flink不仅仅依赖于追踪Kafka的消费者group偏移量,而且将这些偏移量存储在其内部用于追踪。 和Spark一样,...原创 2019-01-28 10:53:51 · 3697 阅读 · 0 评论 -
Flink可查询状态Queryable State:替换你的数据库
2015年12月雅虎使用生产环境中的真实数据对Spark Streaming、Storm以及Flink等流系统计算引擎做了一项基准测试,并得到了以下的测试结果: 我们从上图可以清楚地看到,随着吞吐量的增大,Spark Streaming的延迟也越来越大;而Storm和Flink随着吞吐量的变化延迟波动不是很大。至于为什么这样本文就不详细介绍了。雅虎的流系统基准测试有个明显的问题,就是虽然使...原创 2019-01-28 10:56:12 · 1318 阅读 · 0 评论