Hadoop学习专辑
文章平均质量分 94
该昵称已经被占用
这个作者很懒,什么都没留下…
展开
-
Hadoop-2.5.0-cdh5.3.2 HA 安装
一 规划1 软件版本2 主机规划3 变量名及目录路径规划二 环境准备1 创建 hadoop 用户2 网络配置3 安装 JDK4 配置 SSH 免密码通信5 VNC 配置 可选三 安装 ZooKeeper四 安装 Hadoop 重点1 下载解压配置环境变量2 修改配置文件3 分发程序五 启动集群1 启动ZooKeeper集群2 格式化 ZooKeeper 集群目的是在原创 2016-01-01 10:41:31 · 4608 阅读 · 1 评论 -
Apache/CDH 版本下 Hadoop 编译 Eclipse 插件总结
一 背景介绍二 cloudera CDH5 开发方式及 CDH eclipse 插件编译总结1 hadoop 插件开发方式2 CDH 开发方式三 Hadoop Eclipse 插件制作1 Hadoop25 Eclipse插件制作2 CDH5 Integration with Eclipse3 Hadoop 220 编译 hadoop-eclipse-plugin 插件四 各原创 2016-01-25 16:01:10 · 2489 阅读 · 0 评论 -
编译 Hadoop Eclipse Plugin
1.首先从 git 下载源码 下载地址: https://github.com/winghc/hadoop2x-eclipse-plugin百度网盘下载: 链接:http://pan.baidu.com/s/1o6DMY4U 密码:y95i下载 ant-1.9.6 下载地址:http://mirrors.noc.im/apache//ant/binaries/apache-ant-1原创 2016-01-25 15:59:19 · 921 阅读 · 0 评论 -
Hadoop 下一代 MapReduce - 集群参数设置与启动
原文地址:http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/ClusterSetup.html一 目的二 先决条件三 安装四 运行 Hadoop Non-Secure 模式1 配置 Hadoop 守护进程的运行环境2 配置非安全模式下的 Hadoop 进程五 Hadoop 的机架感知六 监控 N翻译 2016-01-05 19:41:42 · 2133 阅读 · 0 评论 -
HA 模式下的 Hadoop+ZooKeeper+HBase 启动关闭管理脚本
HA 集群启动与关闭的顺序请参考:http://blog.csdn.net/u011414200/article/details/50437356笔者的集群规划如下:原创 2016-01-01 11:32:04 · 2981 阅读 · 0 评论 -
HA 模式下的 Hadoop+ZooKeeper+HBase 启动顺序
2 主机规划一 首次启动集群网络上的大部分教程的顺序启动顺序停止顺序1.2 主机规划 IP 主机名 用户名 部署模块 进程 10.6.3.43 master5 hadoop5 NameNodeResourceManager NameNodeDFSZKFailoverControllerResourceMana原创 2016-01-01 11:31:38 · 18224 阅读 · 1 评论 -
Hadoop YARN配置参数剖析
本文部分转自 Hadoop YARN配置参数剖析(1)—RM与NM相关参数 本文部分转自 Hadoop YARN中内存的设置一 ResourceManager 相关配置参数1 通信配置参数2 调度器配置参数3 内存和 CPU 配置参数二 NodeManager 相关配置参数1 内存与 CPU 配置参数1 日志配置参数3 运行配置参数三 Hadoop YARN 中转载 2016-01-01 11:30:33 · 4876 阅读 · 1 评论 -
YARN (MRv2) ResourceManager High Availability
本文源自官网 Cloudera 5.3.x文档 http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_hag_rm_ha_config.htmlYARN ResourceManager (RM) 负责跟踪群集中的资源并安排应用程序(例如,MapReduce 作业)。在 CDH 5翻译 2016-01-01 11:28:49 · 2336 阅读 · 0 评论 -
ResourceManager High Availability
Apache 官方原文地址:http://hadoop.apache.org/docs/r2.5.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html一 简介二 架构1 RM 切换11 手工故障切换22 自动故障切换23 在 RM 故障切换中的客户端ApplicationMaster 和 NodeManager2 恢复之前 Activ翻译 2016-01-01 11:24:42 · 1844 阅读 · 0 评论 -
HDFS High Availability Using the Quorum Journal Manager
原文的参考文章:《HDFS High Availability Using the Quorum Journal Manager》 http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html#Deployment%E3%80%81一 目的二 使翻译 2016-01-01 11:22:06 · 1317 阅读 · 0 评论 -
CDH5 Integration with Eclipse
原文转自:https://brucebcampbell.wordpress.com/2014/09/08/cdh5-integration-with-eclipse/笔者按照教程上来了一遍:1.1 前期准备1. 拷贝源码包 笔者先从已经部署好的 Hadoop 安装包下将 eclipse-plugin 的包给 copy 到其他路径,为了防止破坏 Hadoop 已部署的安装包。c原创 2016-01-25 16:09:12 · 1110 阅读 · 0 评论 -
Hadoop 与 Spark 和 HBase 常用配置参数总结
本文转自 http://dongxicheng.org/framework-on-yarn/hadoop-spark-common-parameters/一 背景二 MapReduce重要配置参数1 资源相关参数2 容错相关参数3本地运行 mapreduce 作业4 效率和稳定性相关参数三 HBase 相关配置参数四 Spark 相关配置参数1 效率及稳定性相关参数2转载 2016-01-25 16:10:08 · 963 阅读 · 0 评论 -
配置 hadoop 开发环境+运行 wordcount 程序
一 eclipse 中 hadoop 环境部署概览二 前期准备三 配置 Hadoop 开发环境四 Eclipse 中直接提交 MapReduce任务1 新建 MapReduce工程2 新建 java 工程五 以 Jar 包方式运行1 系统 Export 输出 jar 包2 使用第三方插件 FatJar六 参考资料1 FatJar 安装2 参考链接一. eclipse 中原创 2016-01-14 11:08:32 · 3970 阅读 · 0 评论 -
欢迎来到 Apache Hadoop®!
官网地址:http://hadoop.apache.org/一 Hadoop是什么呢二 开始三 下载 Hadoop四 谁使用Hadoop一. Hadoop是什么呢?Apache™ Hadoop®的项目开发开源软件可靠,可扩展,分布式计算。Apache Hadoop 软件库是一个允许跨集群用简单的模型对于大数据的分布式处理的框架。它的目的是扩大从单一服务器到成千上万的机器,提供每个本地计算和存翻译 2016-01-26 21:45:03 · 811 阅读 · 0 评论 -
MapReduce job.setNumReduceTasks(0)思考
一 概述二 jobsetNumReduceTasks0唯一影响的是map结果的输出方式1 有 reduce2 无 reduce三 总结一. 概述本文转自 http://zy19982004.iteye.com/blog/2068112?utm_source=tuicool&utm_medium=referral在 http://zy19982004.iteye.com/blog/203754转载 2016-01-26 10:21:22 · 973 阅读 · 0 评论 -
Hadoop 常见指令
一 概述二 HDFS 管理命令 fs三 作业管理命令 job四 作业提交命令 jar五 如何停止正在运行的 Hadoop 程序六 附录一. 概述bin 目录下的 Hadoop 脚本是最基础的集群管理脚本,用户可以通过该脚本完成各种功能,如 HDFS 文件管理、MapReduce 作业管理等。该脚本的使用方式:hadoop [--config confdir] COMMAND–config原创 2016-01-25 23:15:35 · 3103 阅读 · 0 评论 -
Hadoop Shell命令
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.htmlFS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstat转载 2016-01-25 22:59:23 · 764 阅读 · 0 评论 -
Hadoop 2.0 中 NameNode/ResourceManager HA 总结
本文部分转自 董的博客《Hadoop 2.0中单点故障解决方案总结》一. Hadoop 1.0/2.0 的内核架构1. Hadoop 1.0 内核主要由两个分支组成:MapReduce 和 HDFS 众所周知,这两个系统的设计缺陷是单点故障,即 MR 的 JobTracker 和 HDFS 的 NameNode 两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得 Hado原创 2016-01-01 11:17:37 · 6949 阅读 · 0 评论 -
Hadoop 权威指南
一. 集群规范Hadoop 运行在商业硬件上。用户可以选择普通硬件供应商生产的标准化的,广泛有效的硬件来构建集群,无需使用特定供应商生产的昂贵、专有的硬件设备。但有几点需要注意: 1. 商业硬件并不等同于低端硬件。 2. 也不推荐使用大型的数据库级别的机器,因为性价比太低了 3. 强烈建议采用 ECC 内存(使用非 ECC 内存会产生校验和错误)尽管各个集群采用的硬件规格肯定有所不同,但是 H原创 2016-01-01 11:13:12 · 990 阅读 · 0 评论 -
CDH(Cloudera)版本的 Hadoop
Cloudera Hadoop介绍CDH版本衍化hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的改变。Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4在Apache Hadoop 2.0.0版本基转载 2015-10-26 08:02:35 · 6681 阅读 · 0 评论 -
Hadoop-2.5.0-cdh5.3.2/5.2.0 搭建完全分布(离线 tar 包安装)
搭建过程具体的步骤,笔者就不做过多介绍了,只是记录下,遇到的问题安装的步骤,有兴趣的可参考 Hadoop-2.5.0-cdh5.3.2 搭建单机伪分布Centos6.5 64位Hadoop完全分布安装教) —— 这个最主要安装结果格式化成功:节点进程成功启动: Hadoop-2.5.0-cdh5.2.0 问题什么库文件的 Warning 都没啥问题了,进程也都OK,但是最后一个步骤居然崩原创 2015-10-26 10:57:48 · 1710 阅读 · 0 评论 -
Hadoop-2.5.0-cdh5.2.1以及Hadoop-2.5.0-cdh5.3.2 获取源码及编译
编译 Hadoop-2.5.0-cdh5.2.1这个版本依旧可以在 http://archive.cloudera.com/cdh5/cdh/5/ 里下载,显示的时间为 2014-11-23。为什么要编译这个版本的?我选用 Maven 的国内镜像地址为<mirror> <id>nexus-osc</id> <mirrorOf>*</mirrorOf> <name>Nexuso原创 2015-10-21 21:56:07 · 2644 阅读 · 0 评论 -
Hadoop-2.5.0-cdh5.2.0 获取源码及编译
一、为什么要编译这个版本的?当遇到以下这种情况:无非要么本地库是32位,那么本地就缺少库!笔者在使用 Hadoop-2.5.0-cdh5.3.2 遇到的则是第二种情况。因为从官网下直接下载的二进制ta包下,压根就木有本地库(在 apache hadoop 相同位置)。所以,需要编译下,产生本地库文件。因为笔者也刚接触 CDH 版本的 hadoop,所以才会去做这些事,也许将来回头看,只能说笔者愚昧无原创 2015-10-18 22:34:26 · 3244 阅读 · 0 评论 -
Hadoop-2.5.0-cdh5.3.2 搭建单机伪分布
搭建环境介绍系统为 Centos6.5 (影响不大)JDK 为open-jdk-1.7.0_45在 hadoop 用户权限下完成IP 地址为 10.6.2.102hadoop 软件压缩包位于 /home/hadoop/softwareshadoop 解压之后安装于 /home/hadoop/ - 配置安装环境创建新用户 hadoop网络配置 JAVA 配置 本机 SSH免密码登原创 2015-10-19 09:37:51 · 3919 阅读 · 0 评论 -
Hadoop-2.3.0-cdh5.0.0 获取源码及编译
呵呵呵原创 2015-10-18 14:47:50 · 956 阅读 · 0 评论 -
Hadoop 版本编译前的准备
安装必备软件1. 安装 gccyum install gcc2. gcc-c++yum install gcc-c++这样可以避免出现问题:Cannot find appropriate C++ compiler on this system3. JAVA具体可参考笔者相关博文 Centos6.5 JAVA配置 4. 编译前准备其他Linux安装依赖包以下可能需要管理者权限yum install a原创 2015-10-18 11:39:57 · 2535 阅读 · 0 评论 -
Centos6.5 下编译64位 Hadoop 2.2.0
背景介绍1. 问题阐述: 在运行hadoop的时候,出现警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable2. 原因: Apache提供的hadoop本地库是32位的,而在64位的服务器原创 2015-10-17 21:01:30 · 650 阅读 · 1 评论 -
Centos6.5 hadoop新增datanode
Centos6.5 64位hadoop新增datanode教程本教程配置说明目的: 为完全分布式的hadoop增添datamode新节点本教程是在64位Centos6.5 Hadoop2.2.0 完全分布安装教程基础之上扩展的在window上通过putty(或其他)工具连接上Linux服务器,进行配置在每台linux服务器上如无特殊说明,均默认在hadoop用户下操作三台Linux服务器原创 2015-08-15 15:41:21 · 634 阅读 · 0 评论 -
Hadoop生态专辑 —— 总体架构目录
Hadoop 生态介绍CDH(Cloudera)版本的 Hadoop 介绍 Mahout 简介Hadoop 版本编译Hadoop 版本编译前的准备编译64位 Hadoop 2.2.0 Hadoop-2.3.0-cdh5.0.0 获取源码及编译 Hadoop-2.5.0-cdh5.2.0 获取源码及编译 Hadoop-2.5.0-cdh5.2.1 / 5.3.2 获取源码及编译 Ha原创 2015-10-26 10:59:21 · 967 阅读 · 0 评论 -
Centos6.5 64位Hadoop完全分布安装教程
64位Centos6.5 Hadoop2.2.0 完全分布安装教程本教程的环境搭建准备:实体机Win7 64位putty 或 VNC 或 SSH Secure Shell ClientCentos 6.5 版本Hadoop 2.2.0 版本(编译后64位)OpenJdk1.7.0本教程配置说明目的: 利用两台Linux服务器(实体机)搭建完全分布式hadoop在window上通过pu原创 2015-10-30 08:32:30 · 3381 阅读 · 1 评论 -
HDFS 和 YARN 的 HA 故障切换
一 非 HDFS HA 集群转换成 HA 集群二 HDFS 的 HA 自动切换命令1 获得当前 NameNode 的 active 和 standby 状态2 NameNode 的 active 和 standby 状态切换3 HDFS HA自动切换比手工切换多出来的步骤三 ResourceManager 的 HA 自动切换命令1 获得当前 RM 的 active 和 standb原创 2016-01-01 11:09:48 · 13453 阅读 · 2 评论 -
HDFS 用户手册
一 目的二 概述三 先决条件四 Web接口五 Shell命令1 DFSAdmin命令六 Secondary NameNode七 Rebalancer八 机架感知Rack awareness九 安全模式十 fsck十一 升级和回滚十二 文件权限和安全性十三 可扩展性十四 相关文档一. 目的本文档的目标是为 Hadoop 分布式文件系统(HD翻译 2016-01-01 11:08:09 · 888 阅读 · 0 评论 -
详解 WordCount 运行后历史日志记录
在 《Hadoop-2.5.0-cdh5.3.2 HA 安装》 一文中我们已经详细讲述了如何搭建 HA 模式,同时最后还演示了运行其自带的 wordcount 程序,详情请参考 运行 Hadoop自带 wordcount 程序 。先简要回顾下:基础概念1 运行 wordcount 程序2 控制台输出结果二 Hadoop 作业日志收集过程详解三 ResourceManage原创 2016-01-01 11:07:19 · 5063 阅读 · 0 评论 -
hadoop2.x 常用端口及定义方法
一 常用端口号1 HDFS2 YARN3 HBase4 Hive5 ZooKeeper二 Web UIHTTP服务1 对于存在 Web UIHTTP服务的所有 hadoop daemon 有如下 url2 特定的 Daemon 又有特定的 URL 路径特定相应信息一. 常用端口号Hadoop 集群的各部分一般都会使用到多个端口,有些是 daemon 之间原创 2016-01-01 11:06:26 · 6653 阅读 · 0 评论 -
Hadoop 1.x 与 2.x 中 fsimage 和 edits 合并实现
本文部分转自 Hadoop 1.x中fsimage和edits合并实现 本文部分转自 Hadoop 2.x中fsimage和edits合并实现 本文部分转自 hadoop 2.2.0 关于 fsimage & edit log 的相关配置 一 Hadoop fsimage 和 edits 合并背景需求二 Hadoop 1x 中 fsimage 和 edits 合并实现1 Secondary转载 2016-01-01 11:05:44 · 1679 阅读 · 0 评论 -
Hadoop NameNode元数据相关文件目录解析
本文转自 Hadoop NameNode元数据相关文件目录解析一 NameNode 元数据相关文件目录架构二 元数据相关文件解析1 VERSION 文件2 seen_txid 文件3 fsimage 和 edits 及 md5 校验文件三 文件系统元数据 fsimage 和编辑日志 edits1 edits 和 fsimage 文件的概念2 fsimage 和 edits转载 2016-01-01 11:02:09 · 11132 阅读 · 0 评论 -
Hadoop 历史服务器与日志详解
本文转至 Hadoop日志存放路径详解一 Hadoop日志存放路径详解1 Hadoop系统服务输出的日志2 配置 Hadoop 系统服务日志二 Mapreduce 程序相关的日志1 历史作业日志2 Container 日志一. Hadoop日志存放路径详解 Hadoop 的日志有很多种,很多初学者往往遇到错而不知道怎么办,其实这时候就应该去看看日志里面原创 2016-01-01 10:59:14 · 16049 阅读 · 0 评论 -
Hadoop-2.5.0-cdh5.3.2 启动过程详解
五. 启动集群注意:在启动之前务必将配置文件都检查清楚,包括环境变量设置且生效,最后要严格按照以下的步骤启动。5.1 启动ZooKeeper集群在集群中安装 ZooKeeper 的主机上启动 ZooKeeper 服务。在本教程中也就是在 slave51、slave52、slave53 的主机上启动相应进程。分别登陆到三台机子上执行:zkServer.sh start以原创 2016-01-01 10:57:41 · 4325 阅读 · 0 评论 -
Hadoop 2.0 NameNode HA 和 Federation 实践
本文部分转自 Hadoop 2.0 NameNode HA和Federation实践 本文部分转自 详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程一 Hadoop 20 里 HA 的实现方式1 利用共享存储来在两个 NN 间同步 edits 信息2 DataNode以下简称DN同时向两个 NN 汇报块信息3 用于监视和控制 NN 进程的 Fail转载 2016-01-01 10:56:21 · 1339 阅读 · 0 评论 -
Centos6.5 64位Hadoop伪分布安装教程
64位Centos6.5 Hadoop伪分布安装教程本教程配置说明目的:给Hadoop初学者一个直观认识,为后续的完全分布打下基础 本教程的环境搭建准备:实体机Win7 64位VMware Workstation 10.0.0 版本Centos 6.5 版本Hadoop 2.2.0 版本(编译后64位)JDK1.7 版本注意事项(用户根据实际情况进行调整)在root用户权限下安装下原创 2015-08-15 15:30:24 · 1864 阅读 · 0 评论