关闭

Hadoop二次排序及MapReduce处理流程实例详解

一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的。本文将通过一个实际的MapRe...
阅读(1814) 评论(0)

【Hadoop】HDFS的运行原理

简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点:     ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。     ② 运行在廉价的机器上。     ③ 适合大...
阅读(83) 评论(0)
    个人资料
    • 访问:26000次
    • 积分:1393
    • 等级:
    • 排名:千里之外
    • 原创:114篇
    • 转载:14篇
    • 译文:1篇
    • 评论:1条
    最新评论
  • Spark RDD

    testcs_dn: 把一个超大的数据集,切分成N个小堆,Hadoop大文件并行处理不是这样做的吗?