![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink学习
文章平均质量分 93
apprentices
这个作者很懒,什么都没留下…
展开
-
Flink集群搭建
上一篇博客中主要是Flink的了解性知识以及如何使用在local Flink上跑一个程序,这篇博客我们主要介绍下Flink的standalone集群的搭建以及其基于ha 的一个搭建。对于flink的安装我默认你已经做好节点间的免秘钥以及各个节点关闭防火墙,jdk1.8的安装等操作,开始之前我先给大家介绍一款非常使用的软件,大家可以看下使用效果,喜欢的话可以下载着玩玩。lrzsz--方便上传下载...原创 2019-08-20 11:02:59 · 194 阅读 · 0 评论 -
初探Flink与第一个Flink程序-wordcount
Flink简介 Apache flink是一个开源的分布式、高性能、高可用、准确的 流处理框架,可对有限数据流和无限数据流进行有状态计算,可部署在各种集群环境下(local,standalone,yarn,以及云端)。统一的大数据分析和流计算、批计算及机器学习引擎,flink原生支持了迭代计算,内存管理和程序优化。Flink架构图如下(从官网拷贝):注:有限数据流是指有限的不会改变的数...原创 2019-08-16 10:18:29 · 482 阅读 · 0 评论 -
Flink 常用Api 学习及测试
Flink DataStreamFlink data source Flink 做为一款流式计算框架,它可用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时的处理些实时数据流,实时的产生数据流结果,只要数据源源不断的过来,Flink 就能够一直计算下去,这个 Data Sources 就是数据的来源地。其中可以通过 获取数据源。StreamExecu...原创 2019-08-21 17:58:10 · 312 阅读 · 0 评论 -
Flink 架构
Flink流式计算模型图中的stream为传输通道中的数据,operator为flink中的算子,Source为数据源,sink是最终处理的数据去向。流式计算模型中由计算节点的多个并行实例组成,其中并行实例的含义是:在分布式环境中,同一计算节点有多个功能相同的的物理部署实例,。其并行模式图可参考下图。在并行任务时候,每个operator的实例数为并行度,任意两个operato...原创 2019-08-27 09:50:31 · 261 阅读 · 0 评论 -
flink 广播变量&&累加器&&计数器
广播变量Flink Broadcast(广播变量)广播变量允许编程人员在每台机器上保持一个只读缓存变量,而不是传送变量的副本给tasks,广播变量创建之后,他可以运行在集群中任何function上,而不需要多次传递给集群节点,另外不要更改广播变量,这样才能确保每个节点获取到的数据是一致的,简单理解就是一个公共的共享变量,我们可以把dataSet数据集广播出去,然后不同的task在节点上都能...原创 2019-08-30 17:55:11 · 1018 阅读 · 2 评论 -
Flink整合kafka练习
Kafka-connector kafka中的partition机制和flink的并行度机制深度结合,kafka可以作为flink的source和sink,任务失败,通过设置offset来恢复应用。 依赖 <dependency> <groupId>org.apache.flink</groupId> &l...原创 2019-09-03 11:08:57 · 427 阅读 · 0 评论 -
Flink 整合hbase
Hbase是一个分布式的、面向列的开源数据库,是hadoop项目的子项目,不同于一般的数据库,是一个适合非机构化数据结构存储的数据库,是一个基于列而不是行的模式。在hadoop生态圈的角色是实时、分布式、高维数据的数据存储。一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库。在HBase中上面的表格只是一行数据。 图 hbase数据结构Row key:决定一行...原创 2019-09-09 15:02:05 · 4641 阅读 · 0 评论