Hadoop - 基本概念

Hadoop背景
在硬盘容量不断提升的同时,硬盘的读取速度却没有跟得上。1TB的硬盘,按照100MB/s的读取速度,需要2.5个小时才能读完。
能想到的一个简单的方法:将数据分布在多个硬盘中,并行读取,那么读完所有数据的时间将大大缩短。
Hadoop为我们提供了一个可靠的共享存储和分析系统。其中,HDFS实现数据的存储,MapReduce实现了数据的分析和处理。


元数据 metedatd

元数据是描述数据的数据。


Spark与Hadoop的对比

Spark的中间数据放到内存中,对于迭代运算效率更高。

Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。


Apache

世界使用排名第一的Web服务器软件


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值