1、什么是Chuwka?
Chuwka官方解释:
Apache Chukwa是一个用于监控大型分布式系统的开源数据收集系统。Apache Chukwa构建于Hadoop分布式文件系统(HDFS)和Map / Reduce框架之上,并继承了Hadoop的可扩展性和健壮性。Apache Chukwa还包括一个灵活而强大的工具包,用于显示,监控和分析结果,以充分利用收集的数据。
2、为什么使用Chuwka
当一家公司刚开始做大数据,或者说使用大数据技术处理数据时,刚开始的大数据集群的规模不是很大,每天从业务数据源或者其他数据源得到的数据不是很多。但是当公司逐渐发展,业务线逐渐增多并且数据量增多,这时候hadoop集群的规模可能达到1000+时,集群自身的信息将会大量增加。
面对这种情况,Apache开发出一个开源的数据收集和分析系统—Chukwa来处理Hadoop集群的数据。Chukwa有几个非常吸引人的特点:
1)架构清晰,部署简单;
2)收集的数据类型广泛,具有很强的扩展性;
3)与 Hadoop 无缝集成,能完成海量数据的收集与整理。
3、Chuwka的架构
<