2014年09月_青木德林

12月 11月 10月 09月 08月 07月 05月

原创 org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container

今天在hadoop2.2.0版本上运行1.0.3的mr程序，起初以

2014-09-30 15:31:48 2881

原创 Linux命令

今天使用hadoop时发现查看本机ip时无法使用提示没有该命令首先查看了Linux的版本号uname -a 查看内核版本接着查看Linux的版本lsb_release -a 发现时CentOS使用ifconfig时提示没有该命令这时决定使用管理员权限su 和su - 都需要密码艹只能冒充管理员调用没有加密的命令 sbin/ifcon

2014-09-30 12:10:16 731

原创 MapReduce单元测试（MRUnit测试）

正常情况下编写的MapReduce程序需要上传到服务器才能检验器正确性，但是受限于环境的影响，测试MR程序变得非常困难，现在使用MRUnit Tutorial 让测试变得更加简单。ok，不再废话，直接上链接和代码：如果你使用maven管理项目，在你的pom.xml文件添加以下依赖项即可，这里区分Hadoop1和Hadoop2版本Using from Maven add depend

2014-09-30 11:14:58 1489

转载 Hadoop性能调优

Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一应用程序编写规范1.设置Combiner 对于一大批MapReduce程序，如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果，从而减少各个Reduce Task的

2014-09-29 09:54:44 669

转载 Hadoop Mapreduce原理

Hadoop是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB 级）的大文件（通常超过64M），其原理如下图所示：采用M

2014-09-29 09:37:22 627

转载 HDFS体系结构

Hdfs体系结构：三个进程（namenode,datanode, secondary namenode） Hdfs(hadoopdistributed filesystem)是hadoop的核心子项目，是分布式存储，它是基于流数据模式的访问和处理超大文件。(分布式最大的好处就是其通透性，虽然分布存在不同的datanode上面，但是感觉在一台电脑的本地进行操作)。Tips：

2014-09-29 09:34:31 527

转载 Hadoop自定义可序列化的类

在hadoop框架中实现自定义类可以被序列化。[java] view plaincopypackage com.rpc.nefu; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; impor

2014-09-29 09:31:57 1287

转载 HDFS文件操作

hdfs 文件操作，使用FileSystem里提供的方法实现。代码：[java] view plaincopypackage hdfs.fs.nefu; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.ap

2014-09-29 09:31:24 1032

转载 Hadoop单表与多表关联

在单表关联和多表关联的应用的时候，需要从数据里面挖掘出信息来进行操作。例子给出孩子和父母的表输出孩子和爷爷的表数据如下：亲人表childparenttomjeremtomlucyjeremxdlucyhongtonjackjcterryjcjc

2014-09-29 09:30:38 789

转载 Ubuntu下搭建Hadoop2.2.0

目录(?)[+]一、准备工作：集群安装ubuntu12.04 64bit系统,配置各结点IP地址开启ssh服务，方便以后远程登录，命令sudo apt-get install openssh-server(无需重启)使用命令：ssh hadoop@192.168.0.125测试服务连接是否正常设置无密钥登录：修改主

2014-09-29 09:27:10 543

转载 Hadoop（四）组合式MapReduce任务

在实际的应用中，很多的复杂任务都是不止一趟的mapreduce任务，需要查分成多个简单的mapreduce子任务去完后。（1）迭代的计算任务。（2）顺序组合MapReduce作业（3）具有依赖关系的组合式mapreduce作业（4）mapreduce前处理和后处理步骤的链式执行迭代的计算任务：PageRank算法。顺序组合：多个map

2014-09-29 09:24:02 724

转载 Hadoop（三）自定义combiner和partitioner

Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理。有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理，为了减少map过程输出的中间结果键值对的数量，降低网络数据通信开销，用户也可以自定制combiner过程。自定制Partition过程：在mapreduce中，partition用于决定Map节点输出将被分到哪个R

2014-09-29 09:23:04 826

转载 Hadoop（二）自定义输出

Hadoop提供了较为丰富的数据输入输出格式，可以满足很多的设计实现，但是在某些时候需要自定义输入输出格式。数据的输入格式用于描述MapReduce作业的数据输入规范，MapReduce框架依靠数据输入格式完后输入规范检查（比如输入文件目录的检查），对数据文件进行输入分块（InputSpilt）以及提供从输入分快中将数据逐行的读出，并转换为Map过程的输入键值对等功能。Hadoop提供了很

2014-09-29 09:21:18 1558

转载 Hadoop（一）复合键

目录(?)[+]简介：在大数据处理的基本方法上，对于相互间计算的依赖性不大的数据，mapreduce采用分治的策略进行处理，将大的问题划分成小的问题进行求解，使得问题变得简单可行，同时在处理问题上面，MapReduce框架隐藏了很多的处理细节，将数据切分，任务调度，数据通信，容错，负载均衡.....交给了系统负责，对于很多问题，只需要采取框架的缺省值完成即可，用户只需完成设计m

2014-09-29 09:04:19 721

转载 Eclipse快捷键

Eclipse默认快捷键配置Ctrl+1快速修复Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针

2014-09-29 09:03:06 407

转载 Hadoop2.2配置（windows）

hadoop-2.2.0配置eclipse插件(windows和linux平台)分类：云计算2014-09-26 17:11 268人阅读评论(0) 收藏举报目录(?)[+]目前配置eclipse插件主要有两个版本，一个是在windows下重新编译配置，另一个是在linux在重新配置编译。下面逐步讲解在linux下编译-配置ecli

2014-09-29 08:59:43 1012

转载 Hadoop中控制Map的数量

hadooppathinputstringapi文档目录(?)[-]深度分析如何在Hadoop中控制Map的数量InputFormat介绍FileInputFormat中影响Map数量的因素如何调整Map的数量减小Map-Reduce job 启动时创建的Mapper数量输入文件size巨大但不是小文件输入文件数量巨大且都是小文件增加Map-Reduce

2014-09-26 19:47:13 627

原创 Map和Reduce个数设置问题

看了Hadoop的API和官方文档，加上自己y

2014-09-26 17:14:14 4347

转载 HadoopFs命令

Hadoop Shell命令FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS Shell调用文件系统(FS)Shell命

2014-09-26 17:12:18 441

转载 LZO和GZIP

Hadoop本地库目的组件使用方法支持的平台构建Hadoop本地库注意使用DistributedCache 加载本地库目的鉴于性能问题以及某些Java类库的缺失，对于某些组件，Hadoop提供了自己的本地实现。这些组件保存在Hadoop的一个独立的动态链接的库里。这个库在*nix平台上叫libhadoop.so. 本文主要介绍本地库的使用方

2014-09-26 17:09:36 1090

转载 Map/Reduce

Hadoop Map/Reduce教程目的先决条件概述输入与输出例子：WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提交与监控作业的控制作业的输入InputSplitRe

2014-09-26 17:07:23 918