![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 82
奋起直追CDS
这个作者很懒,什么都没留下…
展开
-
hadoop2.x常用端口及定义方法
端口Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明H转载 2016-02-09 20:30:16 · 6203 阅读 · 0 评论 -
HDFS架构与原理
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,可以运行于廉价的商用服务器上。一、HDFS优缺点1.1 优点1、高容错性数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。2、适合批处理...转载 2018-03-26 23:36:02 · 313 阅读 · 0 评论 -
MapReduce原理
MapReduce是一个分布式并行计算引擎,基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上,并以一种可靠、容错、并行的方式处理TB级别的数据集。-一、编程模型这里我们以 WordCount 为实例: 有一批文件,规模为 TB 级或者 PB 级,如何统计这些文件中所有单词出现的次数。-很理所应当的一个想法是,先统计每个文件中单词的频次,再合并累加不同文...原创 2018-03-27 01:10:10 · 389 阅读 · 0 评论