Hadoop学习分享
文章平均质量分 79
amber_amber
这个作者很懒,什么都没留下…
展开
-
【MapReduce开发】文件去重--第一个MapReduce小程序学习
import java.io.IOException;import net.sf.json.JSONArray;import net.sf.json.JSONObject;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoo原创 2014-07-25 18:17:27 · 899 阅读 · 1 评论 -
Hadoop2.0 HA的checkpoint过程
hdfs将文件系统的元数据信息存放在fsimage和一系列的edits文件中。在启动HDFS集群时,系统会先加载fsimage,然后逐个执行所有Edits文件中的每一条操作,来获取完整的文件系统元数据。Edits & fsimage文件HDFS的存储元数据是由fsimage和edits文件组成。fsimage存放上次checkpoint生成的文件系统元数据,Edits存放文件系统操原创 2015-07-22 15:00:38 · 7277 阅读 · 0 评论 -
【MapReduce开发】计算PI
MapReduce无法进行递归和迭代式的计算,所以目前基于MapReduce计算PI的算法只有一种,就是Stanford在一篇论文里提到过的一种掷飞镖计算方法。原文我在网上没有找到,所以就把网友的文章截图附一下吧:原创 2015-08-13 15:49:07 · 2933 阅读 · 0 评论 -
hadoop2.0报错“There appears to be a gap in the edit log”
今天升级集群的时候遇到了这个问题。解决问题的过程中,借机也巩固了下对namenode启动过程的理解。这个问题网上几乎没查到好的解决办法,Google出来的办法说让Recovery,对已经有很大数据量的线上集群来说,风险太大,不可取。所以只能自己读着源码一步一步分析,最终还是完美地解决了,哈哈。原创 2015-07-15 17:56:29 · 7909 阅读 · 4 评论 -
Hadoop2.x eclipse下编程环境配置
这个过程,是针对如何在eclipse中编写hadoop2.x对应的MapReduce程序,然后打包并上传到hadoop集群执行的过程。1. 下载hadoop2.x的tar包,解压到某个目录下(注: 不是源码包,是安装包)2. 将hadoop2x-eclipse插件导入eclipse:(1) 编译插件。插件源码地址 https://github.com/win原创 2015-08-10 11:54:33 · 1132 阅读 · 0 评论 -
Hadoop2.0:Jvisualvm监控MapReduce和spark作业
注意: 这个监控适用于执行时间长的作业,比如数据量较大的mapreduce和spark,以及spark streaming等。对几秒到几分钟的作业,恐怕你还没配置好jvisualvm监控,作业就结束了。昨天看了一篇介绍如何用jvisualvm监控spark作业的方法,因为我的MapReduce作业和spark作业都是跑在hadoop2.0的yarn上的,所以自己探索者把mapreduce和sp原创 2015-05-15 11:43:12 · 2187 阅读 · 0 评论 -
hadoop ganglia安装配置详解
下面是包括ganglia的安装,和ganglia监控hadoop的配置的完整过程。以及在安装过程中遇到的各种问题和解决方法的记录。ganglia版本为3.6,hadoop版本为cdh5.准备工作准备工作中的各项安装,在每个节点,包括gmetad和gmond上都需要。1. 安装依赖yum -y install apr-devel apr-util check-de原创 2015-03-16 18:31:12 · 1471 阅读 · 0 评论 -
修改hadoop源码后,hadoop和spark的编译过程
近期对hadoop2.0源码做了一些修改,根据业务需要,添加了一点小小的功能。而且我们的hadoop2.0环境上同时运行着MapReduce和spark计算框架,所以hadoop源码的修改同时涉及到了hadoop的重新编译,以及spark的重新编译。下面是对编译过程的一点记录。编译的主要难点和关键在对spark的编译。下面会详细介绍。版本:hadoop: cdh5.1.0-hadoop2.原创 2014-11-12 12:24:11 · 2393 阅读 · 0 评论 -
hadoop1.0到2.0的升级(非跨版本)
注: 升级步骤不涉及HA和federation。如何在Hadoop2.0上部署HA和federation,可以查看另外两篇文章。这是1.0升级2.0的简单升级配置步骤。实践了一下,挺顺利的,HDFS1.0平稳升级2.0,不存在任何不兼容的问题,而且数据没有任何丢失。MR升级中的兼容性问题,下面有简单的概括,具体还要使用了才能更明确。HDFS升级1) 首先,停止正在运行的hado原创 2014-09-29 10:30:00 · 1130 阅读 · 0 评论 -
HDFS 2.0 federation配置全过程
HDFS2.0 federation配置全过程我是在已经搭建好的Hadoop 2.0和HA的基础上,增加federation的功能。所以相关的步骤只涉及到federation的部分。网上提供的好几个所谓的federation配置攻略,在实际操作中发现,都有多多少少的错误,有些错误在federation的配置时系统提示还相当的明确,所以都不可取啊。还是要自己一步一步跟着官方文档,脚踏原创 2014-08-08 11:23:10 · 1547 阅读 · 0 评论 -
Hadoop 2.0源码阅读环境配置--win7+Eclipse+Hadoop2.2.0
hadoop 2.0发布时间不长,目前也还没有puji原创 2014-08-18 14:00:27 · 2280 阅读 · 0 评论 -
HDFS2.0 HA完整配置过程
HDFS HA配置的完整步骤大部分内容转载自: http://blog.csdn.net/dmcpxy/article/details/18256607 这里是QJM方式的HA配置,众所周知,HDFS HA一般是基于NFS公共存储的,这里不采用NFS。主要步骤:1. zookeeper集群配置2. HDFS HA参数配置3. HDFS HA启动4. 验证原创 2014-08-05 15:38:22 · 1240 阅读 · 0 评论 -
HDFS集群启动过程详解
HDFS的启动过程和关闭过程都经过脚本进行了封装,只需要执行start-all.sh和stop-all.sh就可以。操作较简单。下面针对启动阶段的原理和详细过程进行说明,对关闭过程目前还没有调研,所以暂缺。HDFS的启动分三步骤:l 第一步,启动namenode;l 第二步,启动datanode;l 第三步,启动Secondary namenode。下面一一描述。原创 2014-07-29 14:07:52 · 5503 阅读 · 0 评论 -
HDFS基本介绍
基本结构l HDFS是服务于Hadoop的分布式文件系统,由namenode,datanode和client三部分组成。l HDFS适合一次写入,多次读取的数据操作格式[hx1] 。l HDFS运行在一般的普通硬件基础上,硬件故障频率较高,所以要求较高的容错性和稳定性。l HDFS不适合小文件的读写,因为文件元数据是存放在namenode的内存中,小文件数量过多,容易将na原创 2014-07-29 13:59:59 · 1376 阅读 · 0 评论 -
hadoop2.x HDFS快照介绍
翻译自Apache官方文档,Hadoop2.x版本的snapshot快照功能介绍。翻译 2015-07-23 14:44:50 · 4386 阅读 · 1 评论