一、企业大数据平台架构
1、企业流行大数据平台架构

- 数据采集
我们有多个数据源,涉及在不同地域、不同网络,因此数据汇聚是个难题,我们主要采集的数据信息有,媒体发送过来的数据、移动设备app数据、爬虫系统获取的数据、自营销系统数据。
数据采集推荐采用Filebeat,Filebeat是一个开源的文本日志收集器,采用go语言开发,它重构了logstash采集器源码,安装在日志产生服务器上来监视日志目录或者特定的日志文件,并把他们发送到logstash、elasticsearch以及kafka上。
- 数据传输
数据分散分别在多个数据中心,要将产生的数据实时传送到自建数据中心,我们使用了Filebeat+kafka架构,并采用kafka mirrormaker做数据的同步。
- 数据分析
数据分析分我们主要有两大部分:流式数据和离线数据。
对处理时间敏感的计算,例如实时报表,监控预警、大屏展示等功能
本文详细介绍了企业大数据平台的架构,包括从数据采集、传输、分析到展示的全流程。重点讲解了ELK(Elasticsearch、Logstash、Kibana)架构及其在不同场景下的应用,如简单的ELK应用、典型的ELK集群架构以及Filebeat作为日志收集工具的使用。此外,还探讨了Kafka分布式集群的构建、部署和管理,以及Hadoop集群中Yarn的资源调度策略。通过对各种组件的深入解析,为企业大数据平台的搭建提供了实践指导。
订阅专栏 解锁全文
&spm=1001.2101.3001.5002&articleId=132289106&d=1&t=3&u=e64ca841cc8846f4b439fa863a66e0f0)
1万+

被折叠的 条评论
为什么被折叠?



