Hadoop
universe_ant
这个作者很懒,什么都没留下…
展开
-
MapReduce中wordcount详细介绍
1、MapReduce编程模型MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单来说,MapReduce就是“任务的分解和结果的汇总”。在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTracker。JobTracker用于转载 2016-09-22 18:00:26 · 9949 阅读 · 0 评论 -
Hadoop Yarn详解
一、Yarn简介Yarn是Hadoop集群的资源管理系统。Hadoop 2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop 2.0中的MapReduce为MRv2后者Yarn。在介绍Yarn之前,我们先回头看一下Hadoop 1.x对MapReduce job的调度管理方式,它主要包括两部分功能:1.ResourceManagement 资源管理2.JobSc转载 2017-03-02 11:09:44 · 654 阅读 · 0 评论 -
Hadoop中MapReduce的简单理解
1.数据流首先定义一些术语。MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务(task)来执行,其中包括两类任务:map任务和reduce任务。Hadoop将MapReduce的输入数据划分为等长的小数据块,称为输入分片(input split)或简称“分片”。Hadoop为每个分片构建一个原创 2017-02-22 18:32:09 · 6925 阅读 · 0 评论 -
Hadoop集群的HA简单说明
简介Hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在Hadoop1.x时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这就是Hadoop1.x中的单点问题,也是Hadoop1.x不可靠的表现,如下图所示。Hadoop2.x中HDFS的高可靠指的是可以同时启动2个NameNode。其中一个处转载 2017-02-24 11:37:41 · 938 阅读 · 0 评论 -
解读Secondary NameNode的功能
概述最近有朋友问我Secondary NameNode的作用是不是NameNode的备份?是不是为了防止NameNode的单点故障问题?确实,刚接触Hadoop,从字面上看,很容易会把Secondary NameNode当做备份节点;其实,这是一个误区,我们不能从字面来理解,阅读官方文档,我们可以知道,其实这并不是这么回事,下面就来赘述下Secondary NameNode的作用。转载 2017-02-24 12:29:42 · 611 阅读 · 0 评论 -
Hadoop RPC机制
一、RPC基础概念1.1 RPC的基础概念RPC,即Remote Procedure Call,中文名:远程过程调用。(1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层转载 2017-02-25 20:13:17 · 388 阅读 · 0 评论 -
RPC原理
一旦踏入公司尤其是大型互联网公司就会发现,公司的系统都由成千上万大大小小的服务组成,各服务部署在不同的机器上,有不同的团队负责。这时就会遇到两个问题:1)要搭建一个新服务,免不了需要依赖他人的服务,而现在他人的服务都在远端,怎么调用?2)其他团队要使用我们的服务,我们的服务该怎么发布以便他人调用?如何调用他人的远程服务?由于各服务器部署在不同机器,服务间的调用免不了网络通信过程,服转载 2017-08-21 19:04:24 · 348 阅读 · 0 评论 -
脱离JVM?Hadoop生态圈的挣扎与演化
目录背景JVM存在的问题1. Java对象开销2. 对象存储结构引发的cache miss3. 大数据的垃圾回收4. OOM问题解决方案定制的序列化工具Spark的序列化框架Flink的序列化框架显式的内存管理Flink的内存管理Spark的内存管理缓存友好的计算Flink中的数据结构Spark的数据结构总结参考新世纪以来...转载 2019-06-20 10:52:40 · 292 阅读 · 0 评论