第一章:Hadoop简介

简介

Hadoop是java开发的快速处理海量非结构化数据的框架。他的前身是Nutch----一个开源的web搜索引擎。Doug Cutting(hadoop之父)团队将Nutch中负责分布式计算的模块剥离了出来,起名为Hadoop(DC儿子的玩具名称-_-)。
从2006年面世以来,Hadoop发展迅猛,生态圈也日益扩大。从最初仅有的HDFS和MapReduce两个组件,发展成为如今包含60多个子项目的庞大生态。覆盖了从数据存储、执行引擎数据访问框架等各个层面。

为什么我们要使用Hadoop

hadoop有以下几个核心理念
  • 分而治之
  • 并行计算
  • 计算向数据移动
  • 数据本地化读取

我理解下来主要突出了两点:1)并行计算;2)数据本地化
并行计算很好理解:一泳池的水,一根管道放水,放完需要2个小时;加一根同样的管道,放完需要1小时(忽略边际量)。所以理论上同样的数据,并发数越高,处理越快。当然,实际应用的时候没那么简单,随便想想就会有诸如数据切分问题、计算结果同步汇总问题等。Hadoop针对于这问题都给出和合适的解决方案;
数据本地化也是Hadoop的一大亮点:首先要明确一个观点-----在cpu、gps和存储高速发展的今天,真正的性能瓶颈在于IO,包括网络IO和文件IO。一般15000转的机械硬盘读取单个大文件的读取速度在200~400 M/s,网络io就更慢了。在处理以TB、PB为单位的文件时,io就会成为瓶颈。这也是hdfs数据优先本地节点读写的原因。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值