大数据
文章平均质量分 84
coderKeNan
爱编程,爱运动,爱音乐,爱生活的一个IT男。
展开
-
DolphinScheduler
大数据调度工具原创 2022-07-15 13:48:01 · 3192 阅读 · 2 评论 -
Hive高可用配置
Hive 高可用1. HiveServer2高可用及Metastore高可用使用Zookeeper实现了HiveServer2的HA功能(ZooKeeper Service Discovery),Client端可以通过指定一个nameSpace来连接HiveServer2,而不是指定某一个host和portMetastore高可用原理:Hive Metastore客户端始终使用第一个url连接到metastore服务器,如果Metastore服务器变得无法访问,则客户端从列表中随机选取一个url并尝原创 2022-03-31 19:09:00 · 5073 阅读 · 0 评论 -
cdh6.3.2安装
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2022-01-30 17:30:44 · 5161 阅读 · 1 评论 -
11. Flink状态一致性
1. 状态一致性有状态的流处理,内部每个算子任务都可以有自己的状态;对于流处理器内部(没有接入sink)来说,所谓的状态一致性,其实就是我们所说的计算结果要保证准确;一条数据不应该丢失,也不应该重复计算;在遇到故障时可以恢复状态,恢复以后的重新计算,结果应该也是完全正常的;1.1 状态一致性分类:AT_MOST_ONCE(最多一次),当任务故障时最简单做法是什么都不干,既不恢复丢...原创 2020-04-03 12:26:08 · 468 阅读 · 0 评论 -
12. Flink窗口模型
Flink Windows1、窗口概述在大多数场景下,我们需要统计的数据流都是无界的,因此我们无法等待整个数据流终止后才进行统计。通常情况下,可以把无限的数据流进行切分,得到有限的数据集进行处理----也就是得到有界流,我们只需要对某个时间范围或者数量范围内的数据进行统计分析:如每隔五分钟统计一次过去一小时内所有商品的点击量;或者每发生1000次点击后,都去统计一下每个商品点击率的占比。在 ...原创 2020-04-01 20:38:17 · 276 阅读 · 0 评论 -
10. Flink 状态管理与检查点机制
1. Flink 状态管理什么是有状态的计算?首先输入数据源源不断输入到Task里面当计算的时候通过Getstate 从State容器里读取历史的状态经过一系列处理又更新到State容器里面将处理后的结果发送到下游1.1 状态分类相对于其他流计算框架,Flink 一个比较重要的特性就是其支持有状态计算。即你可以将中间的计算结果进行保存,并提供给后续的计算使用:state一般...原创 2020-04-01 11:31:29 · 854 阅读 · 1 评论 -
9.Flink 分布式缓存
1.分布式缓存1.1 介绍1.1.1 技术细节1.分布式文件缓存的作用与广播变量类似,也是为了避免出现join 操作发生数据倾斜而设计出来的2.与广播变量不同之处在于: 广播变量中封装的数据类型是: DataSet, DataStream 分布式文件缓存中封装的数据类型是File3.分布式文件缓存底层如何运作? 将分布式文件系统上的资源文件装载到TaskManager进程所...原创 2020-03-30 21:15:58 · 569 阅读 · 0 评论 -
8.Flink 广播变量\累加器
1. 广播变量1.1 介绍在Flink中,同一个算子可能存在若干个不同的并行实例,计算过程可能不在同一个Slot中进行,不同算子之间更是如此,因此不同算子的计算数据之间不能像Java数组之间一样互相访问,而广播变量Broadcast便是解决这种情况的. 在 flink 中,针对某一个算子需要使用公共变量的情况下,就可以把对应的数据给广播出去,这样在所有的节点中都可以使用了注意点:广播...原创 2020-03-30 15:22:38 · 507 阅读 · 0 评论 -
7. Flink流处理API之Data Sink
1. sink概述在使用 Flink 进行数据处理时,数据经 Data Source 流入,然后通过系列 Transformations 的转化,最终可以通过 Sink 将计算结果进行输出,Flink Data Sinks 就是用于定义数据流最终的输出位置。Flink 提供了几个较为简单的 Sink API 用于日常的开发,具体如下:1.1 writeAsTextwriteAsText()...原创 2020-03-29 16:43:28 · 2210 阅读 · 0 评论 -
2.Flink开发环境搭建及wordCount
1. Flink 介绍Flink是对无界和有界流数据进行处理的分布式计算框架1.1 如何学习Flink官网https://flink.apache.org/官方的案例国内关于flink的权威平台https://ververica.cn/源码https://github.com/apache/flink1.2 Flink1.9 跟之前的版本有什么区别?之前离...原创 2020-03-28 10:25:30 · 596 阅读 · 0 评论 -
1.Flink 核心概念概述
1、Flink 简介Apache Flink 诞生于柏林工业大学的一个研究性项目,原名 StratoSphere 。2014 年,由 StratoSphere 项目孵化出 Flink,并于同年捐赠 Apache,之后成为 Apache 的顶级项目。2019 年 1 年,阿里巴巴收购了 Flink 的母公司 Data Artisans,并宣布开源内部的 Blink,Blink 是阿里巴巴基于 Fl...原创 2020-03-27 23:52:26 · 458 阅读 · 0 评论 -
6.Flink流处理API之Transformation
1.Flink流处理API1.1 Transformation1.1.1 介绍source算子之fromElements,参数是可变长的,类型可以是:基础数据类型,样例类,POJO, 元组source算子之fromCollection, 参数类型是集合,集合既可以是java中的集合类型,也可以是scala中的集合类型,将Java中的集合类型自动转换为scala中对应的集合类型,必须导入:...原创 2020-03-26 23:56:01 · 482 阅读 · 0 评论 -
5.Flink流处理API之Data Source
1. 在flink中,有界流是无界流中的一个特例1.1 需求使用flink无界流的api,计算特定目录下所有离线的日志文件1.2 源码object UnboundedFlowTest { def main(args: Array[String]): Unit = { //执行环境 val env = StreamExecutionEnvironment.getExe...原创 2020-03-23 00:08:15 · 392 阅读 · 0 评论 -
4.Yarn模式高可用配置
1.Yarn模式下的高可用配置1.1 yarn session方式中的JobManager HA1.1.1 说明针对于session方式才有JobManager的HA因为Flink集群启动后一直驻留在yarn中,针对于JobManager进程,需要其HA,否则集群没有leader,就瘫痪了per job方式,不需要配置JobManager的HA,内部复用的是standalone JobM...原创 2020-03-22 17:49:17 · 1099 阅读 · 0 评论 -
3. Flink的部署
1. Flink的部署模式1.1 本地模式1.1.1 介绍1)包含: linux环境 windows环境或mac os环境2)适用场景: 开发阶段,通过本地模式验证程序的正确性1.1.2 效果演示1.1.2.1 配置flink_home[robin@node01 module]$ sudo vi /etc/profileexport FLINK_HOME=/op...原创 2020-03-21 16:45:11 · 1424 阅读 · 0 评论 -
编译flink1.9.0 报flink-fs-hadoop-shaded找不到
编译flink1.9.0 报flink-fs-hadoop-shaded找不到1.Flink 源码下载git clone [email protected]:apache/flink.git然后你可以切换到项目的不同分支,执行下面命令将代码切换到 release-1.9 分支:git checkout release-1.92.Flink 源码编译mvn clean install -D...原创 2020-02-22 09:35:27 · 3994 阅读 · 0 评论