Hadoop
象在舞
谁说大象不能跳舞!
展开
-
MapReduce优化
注:转自wisgood的专栏 MapReduce计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化;二是I/O操作方面的优化。这其中,又包含六个方面的内容。1. 任务调度 任务调度是Hadoop中非常重要的一环,这个优化又涉及两个方面的内容。计算方面:hadoop总会优先将任务分配给空闲的机器,使所转载 2017-08-27 10:57:08 · 405 阅读 · 0 评论 -
Hadoop环境下安装zkdash
zkdash是web端管理zookeeper的工具,使用起来非常方便,这篇博客主要介绍如何在Hadoop环境下安装zkdash。一、安装Python2.7.x(x>6) 这里可以参考我的另外一篇博客《Linux下安装Python》。值得注意的是,Python3.6.3自带setuptools和pip,但是Python2.7.x没有自带的setuptools和pip,需要...原创 2018-03-11 21:28:38 · 454 阅读 · 0 评论 -
完全分布式下安装Zookeeper
本文主要讲述如何在完全分布式的环境下搭建Zookeeper,至于如何搭建Hadoop完全分布式环境,大家可以参考我的另外一篇文章《Hadoop完全分布式环境的搭建》一、上传解压Zookeeper二、配置conf下的zoo.cfg文件三、创建zkData目录,在zkData目录目录下创建myid文件,编辑myid,内同就是此台server的id,就是zoo.cfg中指定的server.1...原创 2018-03-11 20:42:16 · 369 阅读 · 0 评论 -
Hadoop完全分布式的搭建
搭建完全分布式的环境是研究大数据技术必不可少的要求。这里,小编将一步步的教大家搭建如何进行Hadoop完全分布式的环境搭建,以三台机器为例。废话不多说直接进入配置模式~一、系统和软件CentOS6.5,hadoop2.5.0,jdk1.8.0_161二、基本环境准备检查主机名:$ cat /etc/sysconfig/network检查IP和DNS:$ cat/etc/sysconfi...原创 2018-03-11 20:21:31 · 414 阅读 · 0 评论 -
MapReduce Join
1. 概述在传统数据库(如:MySQL)中,JOIN操作是非常常见且非常耗时的。而在Hadoop中进行JOIN操作,同样常见且耗时,由于hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File原创 2017-09-02 22:15:46 · 338 阅读 · 0 评论 -
Namenode HA原理详解
注:转自blog.csdn.net/tantexianNamenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 一、为什么要Namenode HA?1. NameNode High Availability即高可用。2. NameNode 很转载 2017-09-02 20:20:26 · 379 阅读 · 0 评论 -
Hadoop核心模块之Yarn
一、Yarn的基本架构YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向Resource原创 2017-09-02 17:13:35 · 455 阅读 · 0 评论 -
Hadoop核心模块之MapReduce
一、MapReduce是什么MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行计算的编程模型,它使得那些没有多少并行计算经验的开发人员也可以开发并行应用程序。这也就是MapReduce的价值所在原创 2017-09-02 16:30:55 · 714 阅读 · 0 评论 -
HDFS分布式文件存储系统
一、各部分介绍1.1 NameNodeNamenode 是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。文件操作,NameNode 负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问它跟哪个DataNode联系,否则NameNode会原创 2017-09-02 15:57:21 · 6814 阅读 · 0 评论 -
Hadoop、Yarn相关命令简介
HDFS、MapReduce和Yarn并称为Hadoop的核心三大组件,本文着重介绍Hadoop以及Yarn在命令行操作时的相关命令,文中如有不妥之处,欢迎大家及时提出~一、Hadoop相关基础命令1、查看Hadoop中的job信息hadoop job -list这里会显示一些job id 状态等信息。2、杀死某个jobhadoop job -kil...原创 2019-08-05 16:51:18 · 920 阅读 · 1 评论