Hadoop
文章平均质量分 78
zachary_OOM
大数据传道者。专注大数据/云计算,hadoop,spark
联系方式:zachary880914@163.com
https://github.com/zacharyzhanghao
展开
-
基于eclipse开发hadoop2中的MapReduce
开发在windows下开发,通过eclipse连接到hadoop集群,并且远程运行 参考代码为wordcount代码调试 直接运行,我测试MRunit测试开发异常解决1、Exception in thread "main" java.lang.UnsatisfiedL原创 2014-08-15 14:27:45 · 1026 阅读 · 0 评论 -
Ambari系列(三): Ambari架构详解
Hadoop集群的管控一直是一个热门的话题,对于这样的一个应用场景,我所知道国内很早就有人研究并且取得不错的成绩,这就是EasyHadoop。它的功能主要有集群安装,管理,监控等功能,有兴趣的朋友可以百度,这位作者的博客有很详细的介绍。今天,我所要重点介绍的Apache的顶级项目,现在是大数据新贵Hortonworks公司在推进的项目Ambari,这款软件具有集群自动化安装、中心化管理、集群监控、报警等功能,使得安装集群从几天的时间缩短在几小时以内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。原创 2015-01-17 09:07:37 · 13498 阅读 · 0 评论 -
Ambari系列(四):基于Ambari做二次开发(DIY)
Ambari能够搭建、管理Hadoop集群,这是一件很酷的事情,让集群管理变的easy,但是有可能也有自己的一些需求,如果我想基于Ambari做二次开发DIY,修改一下界面,增加一些功能,添加一个模块等等,这些都是没问题,首先Ambari是基于ASF协议,其次,开发也很方便,唯一不足的是官网基于此的开发文档不多。原创 2015-01-17 10:00:31 · 10420 阅读 · 3 评论 -
Ambari系列(一):在离线环境中自动化安装Hadoop集群
在企业真实生产环境中,应该是没有外网链接的,或者做了外网隔离,因此在离线环境下搭建集群很有价值。在内网集群中搭建yum服务器,安装ambari和集群,是一种比较好的解决思路。使用ambari在自动化搭建大规模集群,使传统模式下搭建集群的时间又数天到数周缩短到几天或者几小时,彻底提高集群建设效率,有效避免人为错误,并且ambari是ASF开源软件,明显优于cloudera manager等商业软件,是集群搭建的不二选择。原创 2014-12-09 21:56:06 · 11836 阅读 · 2 评论 -
CDH使用秘籍(二):cloudera Manager中监控数据的存储
上一篇文章分析了cloudera manager中监控数据、中心数据的存储方式,怎样配置外部表等。这一篇文章进一步分析监控数据的存储,配置,调优等。原创 2014-11-19 14:18:28 · 12942 阅读 · 2 评论 -
CDH使用秘籍(一):Cloudera Manager和Managed Service的数据库
从业务发展需求,大数据平台需要使用spark作为机器学习、数据挖掘、实时计算等工作,所以决定使用Cloudera Manager5.2.0版本和CDH5。以前搭建过Cloudera Manager4.8.2和CDH4,在搭建Cloudera Manager5.2.0版本的时候,发现相应的Service Host Monitor 和 Service Monitor不能配置外部表,刚开是还以为是配置出错,后来才发现应该是新版本的Cloudera的存储改变方式了。查了很多文档,果然发现,新版本中Service原创 2014-11-14 10:51:15 · 4051 阅读 · 1 评论 -
自学大数据:CDH和Cloudera Express的介绍
CDH和Cloudera Express的介绍CDH的介绍:CDH首先是100%开源,基于Apache协议。基于Apache Hadoop和相关projiect开发。可以做批量处理,交互式sql查询和及时查询,基于角色的权限控制。在企业中使用最广的Hadoop分发版本。官网链接:http://www.cloudera.co原创 2014-10-23 10:49:16 · 11041 阅读 · 1 评论 -
Oozie的学习笔记
介绍 在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使用它的一些方式。 什么是Oozie? Oozie是一种Java W原创 2014-08-15 13:42:13 · 953 阅读 · 0 评论 -
hadoop能用到的系统端口
hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。1.系统8080,80 用于tomcat和apache的端口。22 ssh的端口2.Web UI用于访问和监控Hadoop系统运行状态Dae转载 2014-08-15 13:36:50 · 1649 阅读 · 0 评论 -
hadoop中 Incompatible namespaceID for journal Storage Directory 异常的处理方法
异常1、org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 3 exceptions thrown:192.168.7.13:8485: Incompatible namespaceID for journal Storag原创 2014-08-15 13:40:04 · 6852 阅读 · 0 评论 -
Ambari系列(二):编译安装Ambari
Ambari是目前最优秀的hadoop集群管理工具,并且是ASF下的开源产品。基于Ambari搭建自己的企业集群,或者做二次开发是一个不错的解决思路。编译Ambari是实现您的hadoop集群方案的第一步。原创 2014-12-27 09:16:04 · 5850 阅读 · 4 评论