大数据实现真正意义上的落地,还是得益于大数据技术的成熟,发展到今天,大数据已经有了适用于各种不同场景下的计算框架,在这些框架当中,Hadoop和Spark依然是行业当中的主流选择。今天的大数据开发入门学习分享,我们来做一个简单的Hadoop与Spark对比。
谈到大数据,Hadoop和Apache Spark这两个名字可谓是耳熟能详,但是对于这两者的应用,还需要更深入的了解。
首先,Hadoop和Spark解决问题的层面不一样。
Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。
Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
其次,Hadoop和Spark两者可合可分。
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供MapReduce的数据处理功能。所以可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。
我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
但是,Spark数据处理速度秒杀MapReduce,这也是毋庸置疑的。
MapReduce是分步对数据进行处理的:从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群……
反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。
关于大数据开发入门,以上就为大家做了一个Hadoop与Spark的简单对比。学习大数据,Hadoop和Spark都是必学的重点,大家一定要重视起来。