一个合理的架构的关键是能够在以下方面取得平衡:
成本
满足需求(梳理业务和响应的应用场景)
技术可持续(需要处理的数据源的种类、类型、数据量)
灵活性
稳定性
可扩展性
flume 不能同步到ES
logstash 占用内存高,比较常用
fliebeat 不依赖java版本,对业务侵入少,占用内存低
技术架构:
数据开发:数据分析、特征工程(pmml模型文件)
数据仓库:负责数据资产建设和管理,数据治理
数据平台建设:集群维护,源码修改,编译
HDFS原理:
Namenode节点:Resource Manager管理cpu内存资源、Application Manager负责管理应用程序,失败重试等
SecondaryNamenode节点:HA备份机制
Datanode节点: Node Manager负责管理本地Conrainer
Balancer :对各个Datanode进行评估并使他们保持平衡
HttpFS:方便的在网页上操作hdfs的文件系统
NFS Gateway:hive客户端节点
Yarn原理:
ResourceManager:
JobHistory Server:
NodeManager:
Hive原理:
Hive Metastore Server(01)
WebChat Server
HiveServer2(01)
GeteWay(01,02,03,04)
Spark原理:(依赖HDFS、Zookeeper)
History Server:
Gateway:
Kafka原理:
Kafka Broker:
Kafka MirrorMaker:
Gateway: