提到大数据,很多同学会想到Hadoop技术。大家都知道,Hadoop是Apache的一个开源项目,它是一个对大量数据进行分布式处理的软件架构,HDFS(Hadoop分布式文件系统),MapReduce、Hbase、Zookeeper,hive等组成了一个Hadoop生态系统。
本文主要以Hadoop为主,细谈大数据时代最好的框架是不是hadoop,通过几个问题来看看,具体如下:
一、为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?
更加智能,hadoop的框架设计比传统数据仓库工具要复杂,相对来说分析处理数据的过程速度更快更好,成本来说也要低。
二、更智能&更大的数据中心架构与传统的数据仓库架构有何不同?
Hadoop是一个生态系统,拥有15多种框架和工具,如Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala等,以便将数据摄入HDFS,在HDFS中转移数据(即变换,丰富,聚合等),并查询来自HDFS的数据用于商业智能和分析。某些工具(如Pig和Hive)是MapReduce上的抽象层,而Spark和Impala等其他工具则是来自MapReduce的改进架构/设计,用于显著提高的延迟以支持近实时(即NRT)和实时处理。比起传统ETL批处理更智能分析。
三、相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么?
随着数据量和复杂性的增加,并行处理,内存密集型处理框架。基于Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜