Hadoop
青木德林
这个作者很懒,什么都没留下…
展开
-
Hadoop中控制Map的数量
hadooppathinputstringapi文档目录(?)[-]深度分析如何在Hadoop中控制Map的数量InputFormat介绍FileInputFormat中影响Map数量的因素如何调整Map的数量减小Map-Reduce job 启动时创建的Mapper数量输入文件size巨大但不是小文件输入文件数量巨大且都是小文件增加Map-Reduce转载 2014-09-26 19:47:13 · 626 阅读 · 0 评论 -
编译hadoop2x插件
一直在用hadoop1.0.3的版本,最近测试上安装hadoop2.2.0版本,很想试用Eclipse集成hadoop2.2.0版本,发现原来在1.0.3的版本中的插件无法识别hadoop2.2.0的根目录,想想也是,2x的hadoop版本已经将目录彻底改变了,用的是yarn。在网上搜了一些方法,也没找到系统的教程,一下是自己弄的已经成功。最主要的是自带的那个release插件不好使...原创 2014-10-08 19:10:43 · 701 阅读 · 0 评论 -
hadoop集群中动态增加新的DataNode节点
在现有hadoop集群中动态增加新的节点原创 2014-10-27 15:55:15 · 3242 阅读 · 0 评论 -
java操作hdfs到数据库或者缓存
javaAPI操作hdfs存入redis中原创 2014-10-27 18:51:50 · 1371 阅读 · 0 评论 -
向HDFS中追加内容
向hdfs中追加内容原创 2014-11-16 10:23:55 · 4794 阅读 · 0 评论 -
hadoop复合键排序使用方法
hadoop复合键排序原创 2014-10-29 18:59:35 · 1319 阅读 · 0 评论 -
hadoop无法启动DataNode问题
hadoop中无法启动DataNode守护进程原创 2014-10-15 14:29:21 · 953 阅读 · 0 评论 -
hadoop版本兼容问题
测试环境使用的是hadoop2.2.0 线上环境1.0.3 编写程序如下:原创 2014-10-15 14:03:29 · 1682 阅读 · 0 评论 -
Map的输出进行LZO压缩
1、先到这里下载 http://www.oberhumer.com/opensource/lzo/ lzo的最新发布版2、配置 ./configure –enable-shared –prefix /usr/local/lzo-2.063、安装 make && sudo make install 4、按照传统所有的liblzo*往/usr/lib下拷一份接下来编译原创 2014-10-17 11:33:43 · 790 阅读 · 0 评论 -
hadoop多文件输出
hadoop多文件输出原创 2014-11-20 11:23:24 · 1402 阅读 · 0 评论 -
编译hadoop-1.X源码
编译hadoop1.X源码原创 2014-12-23 15:24:57 · 767 阅读 · 0 评论 -
Intellij IDEA下远程调试hadoop
IDEA中远程调试hadoop原创 2014-12-24 15:36:56 · 11308 阅读 · 11 评论 -
hdfs统计行数和统计文件大小
hdfs统计文件行数和文件大小命令原创 2014-12-10 10:49:43 · 50698 阅读 · 0 评论 -
经典topK问题
经典TopK问题原创 2014-12-12 17:37:15 · 1444 阅读 · 0 评论 -
awk写shell分发脚本
awk配合写shell脚本,轻松分发到集群文件原创 2014-12-11 19:57:13 · 1034 阅读 · 0 评论 -
hadoop文件IO
hadoopIO相关原创 2015-01-19 17:47:03 · 896 阅读 · 0 评论 -
MapReduce单元测试(MRUnit测试)
正常情况下编写的MapReduce程序需要上传到服务器才能检验器正确性,但是受限于环境的影响,测试MR程序变得非常困难,现在使用MRUnit Tutorial 让测试变得更加简单。ok,不再废话,直接上链接和代码:如果你使用maven管理项目,在你的pom.xml文件添加以下依赖项即可,这里区分Hadoop1和Hadoop2版本Using from Maven add depend原创 2014-09-30 11:14:58 · 1485 阅读 · 0 评论 -
org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container
今天在hadoop2.2.0版本上运行1.0.3的mr程序,起初以原创 2014-09-30 15:31:48 · 2880 阅读 · 0 评论 -
Hadoop性能调优
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task的转载 2014-09-29 09:54:44 · 667 阅读 · 0 评论 -
Map/Reduce
Hadoop Map/Reduce教程目的先决条件概述输入与输出例子:WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提交与监控作业的控制作业的输入InputSplitRe转载 2014-09-26 17:07:23 · 917 阅读 · 0 评论 -
LZO和GZIP
Hadoop本地库目的组件使用方法支持的平台构建Hadoop本地库注意使用DistributedCache 加载本地库目的鉴于性能问题以及某些Java类库的缺失,对于某些组件,Hadoop提供了自己的本地实现。 这些组件保存在Hadoop的一个独立的动态链接的库里。这个库在*nix平台上叫libhadoop.so. 本文主要介绍本地库的使用方转载 2014-09-26 17:09:36 · 1090 阅读 · 0 评论 -
HadoopFs命令
Hadoop Shell命令FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS Shell调用文件系统(FS)Shell命转载 2014-09-26 17:12:18 · 440 阅读 · 0 评论 -
Map和Reduce个数设置问题
看了Hadoop的API和官方文档,加上自己y原创 2014-09-26 17:14:14 · 4346 阅读 · 0 评论 -
Hadoop(二)自定义输出
Hadoop提供了较为丰富的数据输入输出格式,可以满足很多的设计实现,但是在某些时候需要自定义输入输出格式。数据的输入格式用于描述MapReduce作业的数据输入规范,MapReduce框架依靠数据输入格式完后输入规范检查(比如输入文件目录的检查),对数据文件进行输入分块(InputSpilt)以及提供从输入分快中将数据逐行的读出,并转换为Map过程的输入键值对等功能。Hadoop提供了很转载 2014-09-29 09:21:18 · 1558 阅读 · 0 评论 -
HDFS体系结构
Hdfs体系结构:三个进程(namenode,datanode, secondary namenode) Hdfs(hadoopdistributed filesystem)是hadoop的核心子项目,是分布式存储,它是基于流数据模式的访问和处理超大文件。(分布式最大的好处就是其通透性,虽然分布存在不同的datanode上面,但是感觉在一台电脑的本地进行操作)。Tips:转载 2014-09-29 09:34:31 · 526 阅读 · 0 评论 -
Hadoop2.2配置(windows)
hadoop-2.2.0配置eclipse插件(windows和linux平台)分类: 云计算2014-09-26 17:11 268人阅读 评论(0) 收藏 举报目录(?)[+]目前配置eclipse插件主要有两个版本,一个是在windows下重新编译配置,另一个是在linux在重新配置编译。下面逐步讲解在linux下编译-配置ecli转载 2014-09-29 08:59:43 · 1012 阅读 · 0 评论 -
Hadoop(一)复合键
目录(?)[+]简介:在大数据处理的基本方法上,对于相互间计算的依赖性不大的数据,mapreduce采用分治的策略进行处理,将大的问题划分成小的问题进行求解,使得问题变得简单可行,同时在处理问题上面,MapReduce框架隐藏了很多的处理细节,将数据切分,任务调度,数据通信,容错,负载均衡.....交给了系统负责,对于很多问题,只需要采取框架的缺省值完成即可,用户只需完成设计m转载 2014-09-29 09:04:19 · 720 阅读 · 0 评论 -
Hadoop(三)自定义combiner和partitioner
Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理。有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理,为了减少map过程输出的中间结果键值对的数量,降低网络数据通信开销,用户也可以自定制combiner过程。自定制Partition过程:在mapreduce中,partition用于决定Map节点输出将被分到哪个R转载 2014-09-29 09:23:04 · 826 阅读 · 0 评论 -
Hadoop(四)组合式MapReduce任务
在实际的应用中,很多的复杂任务都是不止一趟的mapreduce任务,需要查分成多个简单的mapreduce子任务去完后。(1)迭代的计算任务。(2)顺序组合MapReduce作业(3)具有依赖关系的组合式mapreduce作业(4)mapreduce前处理和后处理步骤的链式执行迭代的计算任务:PageRank算法。顺序组合:多个map转载 2014-09-29 09:24:02 · 723 阅读 · 0 评论 -
Ubuntu下搭建Hadoop2.2.0
目录(?)[+]一、准备工作:集群安装ubuntu12.04 64bit系统,配置各结点IP地址开启ssh服务,方便以后远程登录,命令sudo apt-get install openssh-server(无需重启)使用命令:ssh hadoop@192.168.0.125测试服务连接是否正常设置无密钥登录:修改主转载 2014-09-29 09:27:10 · 543 阅读 · 0 评论 -
Hadoop单表与多表关联
在单表关联和多表关联的应用的时候,需要从数据里面挖掘出信息来进行操作。例子给出 孩子和父母的表 输出孩子和爷爷的表 数据如下:亲人表childparenttomjeremtomlucyjeremxdlucyhongtonjackjcterryjcjc转载 2014-09-29 09:30:38 · 789 阅读 · 0 评论 -
HDFS文件操作
hdfs 文件操作,使用FileSystem里提供的方法实现。代码:[java] view plaincopypackage hdfs.fs.nefu; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.ap转载 2014-09-29 09:31:24 · 1032 阅读 · 0 评论 -
Hadoop自定义可序列化的类
在hadoop框架中实现自定义类可以被序列化。[java] view plaincopypackage com.rpc.nefu; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; impor转载 2014-09-29 09:31:57 · 1286 阅读 · 0 评论 -
Hadoop Mapreduce原理
Hadoop是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理如下图所示:采用M转载 2014-09-29 09:37:22 · 626 阅读 · 0 评论 -
Hadoop加载自有资源文件
hadoop中加载自有xml资源的方法原创 2014-10-23 13:10:37 · 2182 阅读 · 0 评论