yarn
文章平均质量分 68
坡上的云
软件工程师,专注于 大数据 & AI 领域。
展开
-
关于 hadoop-2.2 配置中的 yarn.nodemanager.aux-services 项
在hadoop-2.0.3-alpha 的配置中,yarn.nodemanager.aux-services项的默认值是“mapreduce.shuffle”,但如果在hadoop-2.2 中继续使用这个值,NodeManager 会启动失败,在logs/yarn-biadmin-nodemanager-hostname.log里会报如下的错:2014-01-19 22:35:04,309 F原创 2014-01-20 06:19:16 · 25120 阅读 · 0 评论 -
3 分钟快速体验 Apache Spark SQL
“War of the Hadoop SQL engines. And the winner is …?” 这是个很好的问题。不过,无论答案如何,我们都值得花一点时间了解一下 Spark SQL 这个 Spark 家族里面的成员。原创 2014-07-28 20:29:31 · 1919 阅读 · 0 评论 -
3 分钟学会调用 Apache Spark MLlib KMeans
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的原创 2014-07-27 17:31:35 · 7639 阅读 · 0 评论 -
Oozie 与 Yarn 协同工作
记录一下Oozie针对于Yarn的安装和配置流程。本文Oozie的版本为3.3.2,Hadoop为2.2。原创 2014-03-17 22:58:01 · 7910 阅读 · 0 评论 -
HBase 0.96.0 的数据导入: 利用ImportTsv,completebulkload,Import
记录一下HBase 0.96.0 利用ImportTsv和completebulkload 导入数据的方法。我的环境里用的是Yarn。1、利用ImportTsv 将cvs文件导入到HBase步骤:a. 在hbase里面创建好table: 命令:create 'hbase-tbl-001','cf'b. Upload simple1.cvs文件到hdfs上面,其内容为原创 2014-03-15 15:23:50 · 12646 阅读 · 5 评论 -
从Hadoop 1.x升级到Yarn
这里简单记录一下主要步骤。1、停掉所有的Hadoop 1.x进程2、copy Hadoop 2.x项目文件到所有节点上3、设置Hadoop 2.x的环境变量4、编辑Hadoop 2.x的配置文件值得注意的是:需要使用之前版本的HDFS的meta data和 data。因此以下几项需要和之前版本Hadoop的设置一样:a) core-site.xml- hadoop.原创 2014-03-15 17:25:17 · 1587 阅读 · 0 评论 -
HBase导出CSV格式数据的方法
本文的测试环境为hbase-0.96.0 + yarn(hadoop-2.0.3-alpha) + pig-0.12.0。在测试前,先创建了一张名为test的hbase表,它内容非常简单,就只有一行数据:HBase export工具导出的数据的格式是sequence file。比如,在执行完命令“bin/hbase org.apache.hadoop.hbase.mapreduce.E原创 2014-03-16 11:21:43 · 23327 阅读 · 2 评论 -
从 Yarn 回滚到 Hadoop 1.x
上一篇博客介绍了如何从Hadoop 1.x升级到Yarn ,而这篇博客将介绍如何从从 Yarn 回滚到 Hadoop 1.x。以下是主要步骤。1、首先,能够回滚的前提是之前upgrade后没有执行过finalizeUpgrade的操作,否则将会导致回滚失败、NameNode不能正常启动:2、设置、启用Hadoop 1.x的环境变量3、更改‘dfs.data.dir’目录的权限原创 2014-03-16 10:20:08 · 1149 阅读 · 0 评论 -
在 Yarn 上 安装 Spark 0.9.0
今天在自己的Yarn cluster 上搭建了Spark 0.9.0,这里粗要地记录一下主要步骤。 详细的步骤主要参照了以下两篇blog,在此对两位作者表示感谢!-Apache Spark学习:将Spark部署到Hadoop 2.2.0上: http://dongxicheng.org/framework-on-yarn/build-spark-on-hadoop-2-yarn/-sp原创 2014-02-23 22:17:44 · 5370 阅读 · 1 评论 -
通过 Job History Server 的 web console 查阅在 Yarn 上 MapReduce job 的 job conf xml 文件
很多时候,Yarn 的用户希望知道自己运行过的某个 MapReduce job 的运行参数,此时可以从MapReduce History Server的 web console上查阅该 job的conf xml 文件内容。当然用户也可以先登录Yarn 的 web console的地址,然后再从上面跳转到 Job History Server 的 web console进行查阅。本文将以一个简单的图文例子来具体演示该功能。原创 2014-12-22 22:24:32 · 7734 阅读 · 1 评论