数据仓库技术选型(三)

一个合理的架构的关键是能够在以下方面取得平衡:
 成本
 满足需求(梳理业务和响应的应用场景)
 技术可持续(需要处理的数据源的种类、类型、数据量)
 灵活性
 稳定性
 可扩展性
在这里插入图片描述
flume 不能同步到ES
logstash 占用内存高,比较常用
fliebeat 不依赖java版本,对业务侵入少,占用内存低
在这里插入图片描述

技术架构:
在这里插入图片描述
数据开发:数据分析、特征工程(pmml模型文件)
数据仓库:负责数据资产建设和管理,数据治理
数据平台建设:集群维护,源码修改,编译

HDFS原理:

Namenode节点:Resource Manager管理cpu内存资源、Application Manager负责管理应用程序,失败重试等
SecondaryNamenode节点:HA备份机制
Datanode节点: Node Manager负责管理本地Conrainer

Balancer :对各个Datanode进行评估并使他们保持平衡
HttpFS:方便的在网页上操作hdfs的文件系统
NFS Gateway:hive客户端节点

Yarn原理:

ResourceManager:
JobHistory Server:
NodeManager:

Hive原理:

Hive Metastore Server(01)
WebChat Server
HiveServer2(01)
GeteWay(01,02,03,04)

Spark原理:(依赖HDFS、Zookeeper)

History Server:
Gateway:

Kafka原理:

Kafka Broker:
Kafka MirrorMaker:
Gateway:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值