Hadoop
文章平均质量分 53
锦衣夜行_
这个作者很懒,什么都没留下…
展开
-
hadoop-hdfs
HDFS:HDFS即Hadoop的分布式文件系统,以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件。HDFS是Hadoop的应用用到的一个最主要的分布式存储系统一个HDFS集群主要由一个NameNode会和很多个Datanode的组成:Nameno...原创 2018-12-25 01:04:11 · 264 阅读 · 0 评论 -
HDFS代码分析-RPC框架
什么是RPC框架:RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就...原创 2019-03-11 02:10:57 · 153 阅读 · 0 评论 -
MapReduce
MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。 MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce分为Mapper和Reducer两个阶段 (1)Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理...转载 2019-03-22 23:47:37 · 202 阅读 · 0 评论 -
YARN框架
YARN框架简介:YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN概念:YARN的基本思想是将JobTracker(Job跟踪器)的两个主要功能(资源管理和作业调度...原创 2019-04-06 18:07:05 · 805 阅读 · 0 评论 -
MapReduce补充-排序-分组-切片和shuffle机制Split切片机制
MapReduce执行流程中Shuffle机制和Split机制:1.MrAppMaster(任务监控调度机制)向ResourceManager领取任务2.MrAppMaster分配一些NodeManager节点运行map task任务3.map task通过 inputFormat的子类FileInputFormat(默认这里可以自义定比如读取图片)遍历所有文件得到blogsiz...原创 2019-04-26 22:30:40 · 461 阅读 · 0 评论 -
zookeeper
zookeeper简介:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Zookeeper的角色领导者(leader),负责进行投票的发起和决议,更新系统状态 学习者(learner)...转载 2019-05-21 21:33:59 · 127 阅读 · 0 评论