大数据
Penny婷
这个作者很懒,什么都没留下…
展开
-
Flink大状态优化笔记
一、问题表现1、taskmanager不断重启。2、吞吐量不断下降,数据堆积,checkpoint失败二、解决:1、由于我们是程序开发,自定义状态,所以首先考虑优化中间结构,将原有MapState中的多个值,简化key及value,state减少了1/3,后自定义对象pojo实现序列化接口,方便存取。状态也减少了一些,但是效果不大。2、开启增量(怎么忘记了这个!)new RocksDBStateBackend(checkpointUrl, true)3、做完上面两步后,taskmanager就原创 2021-02-01 11:10:35 · 750 阅读 · 0 评论 -
《DS调度实时任务优化》详细设计
《DS调度实时任务优化》详细设计需求背景:由于ds的主从结构,且在了解ds的相关运行原理后,发现ds会占用大量的线程尤其是实时任务会一直占用线程轮询yarn上flink任务的执行状态,而我们的最终方案是直接通过yarn获取任务的执行状态,换言之,不需要ds上保存flink任务的执行状态。所以这里的改造方案:当flink任务提交成功后,直接将ds上该任务的状态置为成功,则ds不会持续轮询。一、DS调度实时任务现状1、ds调度任务的总体流程:2、ds调度实时任务的代码分析:2.1 master轮原创 2020-06-17 17:56:44 · 4297 阅读 · 0 评论 -
Flink的安装和使用(sql,datastream,cep)
一、安装1、环境准备:环境变量配置:export JAVA_HOME=/usr/share/java/jdk1.8.0_131export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/libexport PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/binexport HADOOP_HOME=/usr/hdp/3.1.0.0-78/hadoop/export HADOOP_原创 2020-05-16 10:38:05 · 2631 阅读 · 0 评论 -
Flink的核心概念及运行流程
一、什么是Flinkflink是数据流上的有状态计算,可以用来处理有界和无界数据(实时和批次)。1、应用的场景:• 事件驱动的应用• 数据管道 & ETL• 流式、批次数据分析二、概念及运行流程1、概念1.1、flink的组件堆栈Programs and Dataflows1、DataFlow的基本套路:构建运行环境-》Source(一个或多个)-》转换(算子) -》Sink(一个或多个)多个DataFlow组成DAG。2、并行化DataFlow(Distributed S原创 2020-05-15 23:45:11 · 1156 阅读 · 0 评论 -
DolphinScheduler1.2源码开发环境搭建及架构分析
一、本地开发环境的搭建1、准备工作:1.1、环境:后端JDK(1.8+)Maven(3.3+)最好在本地解压一个hadoop并配上环境变量(不配好像会报一个winutils…的问题)前端node(Node包下载 (注意版本 8.9.4) https://nodejs.org/download/release/v8.9.4/)本地环境变量的配置:1.2、源码下载git...原创 2020-03-06 18:48:28 · 3140 阅读 · 0 评论 -
Datax的执行流程源码分析
DataX的框架的核心部分1、配置贯穿DataX,all in configuration,将配置的json用到了极致2、另一块是通过URLClassLoader实现插件的热加载。Job&Task概念 在DataX的逻辑模型中包括job、task两个维度,通过将job进行task拆分,然后将task合并到taskGroup进行运行。job实例运行在jobContainer容器中,...原创 2020-02-14 19:41:07 · 955 阅读 · 0 评论 -
Zookeeper选举方式,watch机制及基本操作
一、概念1、Zookeeper是一个分布式协调服务的开源框架,本质是一个分布式的小文件存储系统,主要用来解决分布式集群中,应用系统的一致性问题。2、架构图Leader (Zookeeper集群工作的核心)事务请求(写操作) 的唯一调度和处理者,保证集群事务处理的顺序性;集群内部各个服务器的调度者。*事务:对于 create, setData, delete 等有写操作的请求,则需要...原创 2019-07-28 21:05:58 · 571 阅读 · 0 评论