hadoop
至秦墨
大数据行业爱好者
展开
-
Ubuntu安装hive,并配置mysql作为元数据库
1、安装并配置hive1.1下载并解压hive源程序Hive1.1.1链接地址:http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz#解压到/usr/local中,sudo是指以管理员的身份运行该文件sudo tar -zxvf ./apache-hive-1.2.2-bin.t...原创 2019-05-28 21:57:01 · 1334 阅读 · 0 评论 -
Hadoop资源管理框架YARN
YARN框架示意图如下:1、ResourceManager 为系统中所有应用分配资源。有一个可插拔的调度器Scheduler,负责为运行中的各种应用分配资源,使用一个叫Container的抽象概念,其中包括多种资源维度,如CPU、内存、磁盘、网络。Scheduler中有三种调度器 FIFO调度器:简单粗暴,先入先出 Capacity调度器:管理员使用总槽位或者处...原创 2019-06-27 16:53:03 · 252 阅读 · 0 评论 -
MapReduce原理
一、MapReduce并行处理的基本过程 首先要说明的是Hadoop2.0之前和Hadoop2.0之后的区别: 2.0之前只有MapReduce的运行框架,那么它里面有只有两种节点,一个是master,一个是worker。master既做资源调度又做程序调度,worker只是用来参与计算的。 但是在2.0之后加入了YARN集群,Yarn集群的主节点承担了资源调度,Yarn集群...原创 2019-06-27 16:53:52 · 335 阅读 · 0 评论 -
Hadoop1.0与Hadoop2.0的区别
1.Hadoop概述 在Google三篇大数据论文发表之后,Cloudera公司在这几篇论文的基础上,开发出了现在的Hadoop。但Hadoop开发出来也并非一帆风顺的,Hadoop1.0版本有诸多局限。在后续的不断实践之中,Hadoop2.0横空出世,而后Hadoop2.0逐渐成为大数据中的主流。那么Hadoop1.0究竟存在哪些缺陷,在它升级到Hadoop2.0的时候又做出了怎样的调整,...原创 2019-06-27 16:54:38 · 697 阅读 · 0 评论