Hadoop
文章平均质量分 61
hadoop2015
站在巨人的肩膀上继续前行着
展开
-
java.io.IOException: Too many open files
1、描述: 每日一样,例行打开hadoop集群的cloudera manager的管理界面。发现出现了多个bad health的服务。那么出现的这个问题就是查看该服务运行的日志,对应的该服务当中,会包含相应的角色,其中,查看日志的时候可以看每一个角色的运行日志。通过查看日志,发现HBase出现了java.io.IOException: Too many open files 错误的问题。原创 2015-08-21 08:48:42 · 620 阅读 · 0 评论 -
Mapper类/Reducer类中的setup方法和cleanup方法以及run方法的介绍
在hadoop的源码中,基类Mapper类和Reducer类中都是只包含四个方法:setup方法,cleanup方法,run方法,map方法。如下所示:其方法的调用方式是在run方法中,如下所示: 可以看出,在run方法中调用了上面的三个方法:setup方法,map方法,cleanup方法。其中setup方法和cleanup方法默认是不做任何操作,且它们只被执行一次。但是setu原创 2015-08-21 08:47:04 · 1005 阅读 · 0 评论 -
hadoop启动之后出现错误:Retrying connect to server: hadoop/192.168.73.100:9000. Already tried 0 time(s);
INFO ipc.Client: Retrying connect to server: hadoop/192.168.73.100:9000. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)INFO ipc.Clie原创 2015-08-21 08:46:29 · 3817 阅读 · 2 评论 -
Hadoop c++开发
假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明,我们不妨假设如下的情况: 我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件的内容均为相同的格式,即,文件的内容大致如下:ABCDSDFKJDKF kkk 2原创 2015-08-21 08:46:17 · 743 阅读 · 0 评论 -
HDFS中Java的API使用测试
import java.io.IOException;import java.util.Arrays;import java.util.Date;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;im原创 2015-08-21 08:48:34 · 442 阅读 · 0 评论 -
Coudera-Manager/CDH的安装和部署
由于之前部署的集群采用的是用apache hadoop的方式来实现,但是考虑到运维的成本问题,下面将apache hadoop转换成cloudera cdh。下面主要讲解一下cloudera cdh的安装过程:Cloudera公司官方网站上介绍了三种安装方式:(官网:http://hpdm.siat.ac.cn/static/help/topics/installation_installat原创 2015-08-21 08:47:54 · 278 阅读 · 0 评论 -
hadoop版本和位数的查看方法
目前针对apache hadoop更新的版本较多,由此而产生了两个方面的问题: 1、如何查看运行的集群当中的hadoop的版本的问题。 2、如何查看运行集群当中的hadoop的位数下面详细的介绍一下1、查看版本信息 通过在集群上执行:hadoop version 命令可以查看对应的hadoop的版本。如下图所示: 2、查看hadoop集群的位数 执行:c原创 2015-08-21 08:47:23 · 1502 阅读 · 0 评论 -
hadoop2.x通过Zookeeper来实现namenode的HA方案以及ResourceManager单点故障的解决方案
我们知道hadoop1.x之前的namenode存在两个主要的问题:1、namenode内存瓶颈的问题,2、namenode的单点故障的问题。针对这两个问题,hadoop2.x都对它进行改进和解决。其中,问题1中对namenode内存瓶颈的问题采用扩展namenode的方式来解决。对于问题2中的namenode的单点故障问题hadoop2.x采用的是HA的解决方案。apache hadoop 官方原创 2015-08-21 08:47:21 · 663 阅读 · 0 评论 -
关于Warn:name or service not known的解决办法
由于之前搭建起了一个集群,然后直接将相应的配置文件复制过来 , 发现出现了 Warn:name or service not known 的问题,导致无法启动datanode。 解决的办法就是将salves文件删除,并重新创建一个salves文件即可。原创 2015-08-21 08:46:59 · 3312 阅读 · 0 评论 -
如何通过web查看job的运行情况
当我们将作业提交到hadoop 的集群上之后,我们会发现一个问题就是无法通过web查看job运行情况,比如启动了多少个map任务,启动多少个reduce任务啊,分配多少个conbiner等等。这些信息都是作业在运行是可以查看的。而我的想要的就是能够通过远程的web可以查看到作业job的运行情况,以及它的详细信息。下面介绍一下查看的方式: 1、当你提交作业时,我们首先通过命令行的方式提交作业后原创 2015-08-21 08:47:07 · 858 阅读 · 0 评论 -
hadoop启动jobhistoryserver
hadoop启动jobhistoryserver来实现web查看作业的历史运行情况,由于在启动hdfs和Yarn进程之后,jobhistoryserver进程并没有启动,需要手动启动,启动的方法是通过:mr-jobhistory-daemon.sh start historyserver 命令还启动。 由于前面有过一篇通过web查看job的运行情况的文章(文章的出处:http://www原创 2015-08-21 08:47:14 · 4396 阅读 · 0 评论 -
利用ClouderaManager启动HBase时,出现 master.TableNamespaceManager: Namespace table not found. Creating...
1、错误描述: 出现上述这个错误的原因是我之前已经安装了Cloudera Manager中的CDH,其中添加了所有的服务,当然也包含HBase。然后重新安装的时候,就会出现如下错误: Failed to become active master,org.apache.hadoop.hbase.TableExistsException:hbase:namespace.根据上面错误的我原创 2015-08-21 08:48:31 · 893 阅读 · 0 评论 -
Coudera-Manager/CDH的安装和部署
由于之前部署的集群采用的是用apache hadoop的方式来实现,但是考虑到运维的成本问题,下面将apache hadoop转换成cloudera cdh。下面主要讲解一下cloudera cdh的安装过程:Cloudera公司官方网站上介绍了三种安装方式:(官网:http://hpdm.siat.ac.cn/static/help/topics/installation_installat原创 2015-08-21 08:47:50 · 422 阅读 · 0 评论 -
MapReducer程序调试技巧
写过程序分布式代码的人都知道,分布式的程序是比较难以调试的,但是也不是不可以调试,对于Hadoop分布式集群来说,在其上面运行的是mapreduce程序,因此,有时候写好了mapreduce程序之后,执行结果发现跟自己想要的结果不一样,但是有没有报错,此时就很难发现问题,查找问题的方法之一就是对程序进行调试,跟踪代码的执行,找出问题的所在。那么对于Hadoop的Mapreduce是如何进行调试的呢原创 2015-08-21 08:48:26 · 429 阅读 · 0 评论 -
MapReduce实现TopK的示例
由于开始学习MapReduce编程已经有一段时间了,作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲,手开始变得很“痒”了,很想小试一下身手。于是自己编写了TopK的代码。TopK的意思就是从原文件中找出词频排名前K的所有单词。首先分析该问题,从中我们可以得到启发:要想知道词频排名前K的所有单词,那么是不是要对所有的单词进行词频的统计啊?于是我们就联想到了一个比较经典的例子:WordCount原创 2015-08-21 08:47:02 · 993 阅读 · 1 评论 -
Cloudera-Manager修改集群的IP
1、业务需求说明:由于公司网络进行了整改,随之而来的就是对应的ip网段发生了变化,其中我的hadoop的集群各主机的ip也相应的发生了改变,因此需要对各主机进行修改ip。2、具体操作: 首先停止cdh各组件的服务,修改各主机的ip。修改完后,本以为完事儿了,启动Cloudera Management Service时,发现启动失败,无法启动。那么问题就来了,如何通过cloudera-原创 2015-08-31 18:36:10 · 1418 阅读 · 0 评论 -
HDFS中的checkpoint( 检查点 )的问题
1、问题的描述由于某种原因,需要在原来已经部署了Cloudera CDH集群上重新部署,重新部署之后,启动集群,由于Cloudera Manager 会默认设置dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns分别是1个小时和1000000。只要达到这两个条件之一,secondarynamenode会执行checkpoint操原创 2015-08-21 08:48:36 · 6754 阅读 · 1 评论 -
CDH上执行WordCount的意外和收获
前面将Cloudera Manager安装到集群上的一台主机后,并通过Cloudera manager安装了hadoop-2.6.0-CDH5.4.4。今日来测试安装的集群是否很够很好的执行mapreduce任务。测试的方法就是测试WordCount的例子。1、在讲测试用例之前,我们首先为系统当前用户在HDFS中创建一下工作目录,并服务相应的权限。1.1、由于我安装的时候是用的root用户原创 2015-08-21 08:48:04 · 616 阅读 · 0 评论 -
hadoop生态系统的详细介绍
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。是Hadoop体系中原创 2015-08-21 08:47:16 · 994 阅读 · 0 评论 -
如何利用Cloudera Manager来手动安装parcel包
1、问题的描述: 当你利用Cloudera Manager部署了CDH的集群后,也许随着你的业务需求,你需要对你的就去哪做一些优化,或者扩展之类的,这个时候你可能需要下载安装一些组件。例如,我最近在阅读Cloudera 官方文档的是,看到有一节的内容说到Performance Management的时候,发现为了提升集群的性能,经常会将数据进行压缩,此时就会需要添加一些parcel的安装。原创 2015-08-21 08:48:46 · 2494 阅读 · 0 评论