Hadoop平台相关技术

HDFS分布式文件系统

HDFS用于存储Hadoop集群中的所有文件,主要被设计用来提高大数据文件的存取速率,将大文件按块平分,通常每块64MB,然后将数据块存储到不同机器上,在读取数据的时候就可以同时从多个机器上读取相关区块的文件,提髙大文件读取效率。在数据访问方面与传统文件系统有所不同,以流式访问数据,不支持文件随机写入,只能在文件末尾进行追加。

由于HDFS通常被部署在廉价的普通PC机上,机器出现故障的概率就远高于昂贵的高配置大型机。为了预防因机器故障导致文件丢失或者不完整的情况,HDFS将集群中所有机器都认为是可能出问题的,其将同一个文件块多个副本分别存储到不同机器上以作备份,一旦某台机器出现故障,就可以从其他人机器上读取副本,具有良好的容错性。

MapReduce并行计巧框架

MapReduce是Hadoop下的分布式数据处理模型,主要用于大规模数据集的并行处理。其基本原理是:首先将大规模数据集切分成若干个小规模数据分片,每个数据分片作为一个map任务输入参数,然后并行执行map任务。Map任务结束后,将结果通过hash油分区分配给reduce任务进行汇总处理。Hadoop将作业分成若干个map任务和reduce任务来执行,对于不熟悉分布式编程的人员来说,只需填写map和reduce处理操作,并不需要理会底层分布式并行计算机制,大大地降低了分布式计算编程的口槛。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值