大数据
文章平均质量分 79
LSur_king
待你成王。
展开
-
YARN内核设计与实现
(一)高并发网络通信RPC架构设计1. YARN结构演进Hadoop-2.x版本之后,解决了原来JobTracker容易出现单点故障以及主节点承载压力大,容易出现性能瓶颈(ApplicationMaster分布在各NodeManager上)的问题。 资源管理/调度和任务执行解耦合(Yarn)。 ApplicationMaster只是一个规范,可支持多种分布式计算框架如Spark、Flink、Storm。 NodeManeger中的container资源抽象比TaskTrack...原创 2021-08-13 00:40:02 · 280 阅读 · 0 评论 -
HDP集群搭建
上一篇:Ambari集群搭建_LSur_king的博客【搭建 HDP集群】1.浏览器访问192.168.1.100:8080,进入ambari集群界面,用户名和密码admin/admin,开始初始化安装。2.创建集群POLYV_HDP,选择3.1版本的HDP集群进行安装,使用本地仓库,把其他操作系统Remove掉。填入本地文件服务器的URL:http://vm01/HDP/centos7/3.1.5.0-152/http://vm01/HDP-GPL/ce..原创 2021-08-03 19:29:13 · 966 阅读 · 0 评论 -
Ambari集群搭建
【集群规划】 虚拟机1 虚拟机2 虚拟机3 内 存 5GB 5GB 5GB 磁 盘 115GB 115GB 115GB host名 vm01 vm02 vm03 ip地址 192.168.1.100 192.168.1.102 192.168.1.104 ssh信息 root/polyv123 root/polyv123原创 2021-08-03 18:16:53 · 635 阅读 · 5 评论 -
实时计算平台的一些实践记录
Q:实时计算平台的架构是怎么样的??A:分为web平台和计算引擎两部分来开发、管理和部署。采用SSM+MySQL+Tomcat、Java+Flink。Q:实时web平台的整体流程运作是怎么样的???A:略,这个应该很熟悉了,有空再总结。主要从开发SQL任务到上线/启动(提交任务到接口机并执行submit.sh)到提交计算引擎的jar包到flink on yarn并将用户配置的任务脚本作为参数传入给计算引擎,再到被引擎解析和处理的这个流程来回答。Q:实时计算引擎的底层API、整体框架实现???A原创 2021-07-12 01:25:38 · 125 阅读 · 0 评论 -
ELK实时运维平台
以下是记录本人在工作中的搭建ELK的经验,用于收集日志,建立一个可以说是ElasticSearch的实时数仓用于管理和监控现场运维状况。【环境搭建】系统环境:System: Red Hat 4.8.5-28 ------cat /proc/versionJDK: 1.8.0_191 ------java -version安装步骤:检查是否有JDK环境 安装ES和IK分词插件 ------tar -...原创 2021-04-20 18:45:02 · 507 阅读 · 0 评论 -
Flink进阶与调优
【知识点1】Flink在处理网络传输时,通过NetworkBuffer来实现攒批,权衡吞吐和延迟的关系。Flink 1.10 及以后的版本直接通过配置参数execution.buffer-timeout: 100ms可以设置,Flink 1.10 之前通过代码env.setBufferTimeout(100)设置 。当设置为 0 时表示没有 timeout 策略,即:每条数据来了都认为 buffer 满了,将这一条数据单独发送给下游。保障了实时性,但吞吐可能会下降。要想吞吐不下降,就需要消耗更多的资...原创 2021-04-18 19:58:48 · 1109 阅读 · 0 评论 -
Kafka从基础到高级理论
文章地址:https://mp.weixin.qq.com/s/Dtx68AVHUh-lF9nxATmuRg原创 2021-04-15 17:25:31 · 202 阅读 · 0 评论 -
AutoPliot-Flink任务自动调优
阿里基于Blink开发了VVP实时计算开发平台,其中有个模块是autopliot,可以做到任务的实时监控并且完成资源的自动调优和分配,以下是一些记录:【实现策略】基于CPU利用率 基于内存利用率 基于由于反压导致的delay,需要调整算子并行度 基于slot利用率 基于JobException的原因进行诊断(这是一个兜底策略,但也是最难广泛涵盖的情况,目前可以识别并解决的有:因为资源分配不足导致任务启动的时候抛出的OOM异常)【注意事项】AutoPliot自动调整并发度是通过默认.原创 2021-04-10 19:00:13 · 383 阅读 · 0 评论 -
Flink状态一致性之exactly-once
幂等写入:一个操作重复执行很多次,但只导致一次结果的更改,也就是说后面重复执行就不起作用了。eg: pow(e,x)求多阶导还等于自己,HashMap,多次写入key相同的键值对等。但需要注意的是,也会出现中间状态短暂的不一致,最终结果一致的情景。eg:flink的checkpoint还有流批结合做关联模型转换的ETL,这些不满足强一致性,但可实现最终一致性。事务写入:构建的事务对应着checkpoint,等到checkpoint真正完成的时候,才把所有对应的结果写入sink系统...原创 2021-04-05 02:15:22 · 1436 阅读 · 4 评论 -
HBase相关杂记
#带着问题去学习寻找答案,其实也是工作和生活中的每一个执行的小步#问题:1.Region什么条件触发分片? 不同的版本有不同的策略,0.94版本之前的是默认当Region中某个Store的所有Store File大小总和超过10G2.Hflie划分个数的依据? memstore每次刷写生成一个新的HFile3.在flush的时候是否阻塞客户端读写? flush是以Region为单位进行操作的,不会阻塞读,但是会短暂阻塞写,Region级别的flush影响可以忽略,RegionServer级别..原创 2021-03-22 21:02:43 · 132 阅读 · 0 评论