hadoop简介

- hadoop是适合海量数据的分布式存储,和分布式计算的框架

- hadoop有三大组件

1、mapreduce:适合海量数据的分布式计算,分为map阶段、shuffle阶段和reduce阶段

2、hdfs:分布式文件系统,适合海量数据的分布式存储

3、yarn:资源调度工具

- hadoop的优点:

1、高效率:分布式计算,移动计算,不移动数据

2、高扩展性:可横向的增加机器,提高性能

3、高可靠性:有副本机制,默认对数据复制2个副本保留下来,一般一个副本在同机架的不同节点,另一个副本在不同机架的节点上。保证数据损坏,或者丢失后,还有其他的副本可以使用。

4、高容错性:计算节点计算任务时,有taskTracker用于计算数据,taskTracker挂了之后,jobTracker会在其他几点重启启动一个taskTracker计算该数据。

- 面试题

1、shuffle过程

        shuffle发生在map和reduce之间,具体流程:数据写进map端之后被程序处理,结果数据写进环形缓冲区,快速排序,缓冲区大小100m,达到80%,即80m的时候,开始反向溢写磁盘,形成一个一个小文件,最后合并成一个具有分区并且排好序的文件。

        reduce通过http请求,获取其他节点上的数据,同一个key进入到同一个reduce中计算,一个reduce可以计算多个key。

2、说说搭建hadoop的3个xml文件

> core-site.xml  核心配置

> hdfs-site.xml hdfs配置文件

> mapred-site.xml mapreduce配置文件

3、hadoop有哪些进程

> hdfs的进程有nameNode,dataNode,secondary nameNode

> yarn的进程有resourceManager,nodeManager,applicationMaster

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值