Hadoop背景
在硬盘容量不断提升的同时,硬盘的读取速度却没有跟得上。1TB的硬盘,按照100MB/s的读取速度,需要2.5个小时才能读完。
能想到的一个简单的方法:将数据分布在多个硬盘中,并行读取,那么读完所有数据的时间将大大缩短。
Hadoop为我们提供了一个可靠的共享存储和分析系统。其中,HDFS实现数据的存储,MapReduce实现了数据的分析和处理。
在硬盘容量不断提升的同时,硬盘的读取速度却没有跟得上。1TB的硬盘,按照100MB/s的读取速度,需要2.5个小时才能读完。
能想到的一个简单的方法:将数据分布在多个硬盘中,并行读取,那么读完所有数据的时间将大大缩短。
Hadoop为我们提供了一个可靠的共享存储和分析系统。其中,HDFS实现数据的存储,MapReduce实现了数据的分析和处理。
元数据 metedatd
元数据是描述数据的数据。
Spark与Hadoop的对比
Spark的中间数据放到内存中,对于迭代运算效率更高。Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。
Apache
世界使用排名第一的Web服务器软件