hadoop
舒沉
葡萄酿成美酒,暂时变成永恒!
展开
-
hadoop日志文件_奇怪的时间
在hadoop性能优化的实验中,碰到一个奇怪的问题,描述如下:在shell端显示 job先执行时间:13:53:32~13:57:18(3m46s,根据shell终端显示计算) Map执行时间:13:53:33~13:57:04(3m31s,根据shell终端显示的估计值) Reduc执原创 2012-07-17 16:29:24 · 2656 阅读 · 1 评论 -
Hadoop_Map中获取当前spilt文件名
有时候需要在Map类中的map函数中获取当前split所读取的文件名。在旧版mapred下面实现方法如下:// 获得输入文件的路径名String path=((FileSplit)reporter.getInputSplit()).getPath().toString();//使用Reporter reporter对象来获取,在新版mapreduce中,Reporter r原创 2012-07-18 09:59:22 · 15738 阅读 · 0 评论 -
Mapreduce Strips算法 实现
终于实现Strips算法了,蛋疼啊。分享部分代码,只是为了实现基本功能,异常捕获处理什么的等细节都没考虑。为了和算法描述一致,在Map类cleanup函数中又化归了一下。如果不要求严格的话,直接可以省略这一步,在Reduce中再处理。粘帖如下:Map类: public static class MyMap extends Mapper { pr原创 2012-07-27 16:53:32 · 1408 阅读 · 0 评论 -
虚拟机Linux socket通信异常
最近在做Hadoop实验。根据错误提示发现是datanode通过ipc连接不上namenode。最后查看hadoop源码,发现是socket通信问题。网上看过很多资料,也请教了很多人,但是没有人有类似经验,一直解决不了,现在问题解决了,权且做个记录,方便以后的朋友。问题:实验环境:宿主机均是i7处理器(8核/16G) 虚拟机(客户机)均是VmWare wo原创 2012-07-12 12:07:37 · 3909 阅读 · 0 评论 -
Hadoop MapReduce之上传文件到HDFS
网络上转载与一个网友的评论,这里记录一下,以备不时之需//本地文件上传到HDFS上public static void upload(String src,String dst) throws FileNotFoundException,IOException{ InputStream in = new BufferedInputStream(new FileInputS转载 2012-08-01 13:52:36 · 5623 阅读 · 1 评论 -
HDFS的JAVA接口API操作实例
20:55 2010-6-2运行环境:Hadoop.0.20.2CentOS 5.4 java version "1.6.0_20-ea"配置的是单机Hadoop环境先看下我的运行截图主要参考这篇文章http://myjavanotebook.blogspot.com/2008/05/hadoop-fi转载 2012-09-03 23:12:04 · 1668 阅读 · 0 评论 -
MapReduce之Join实现
JoinUsingMapSideJoin已经实现,一直在纠结代码传还是不传。在Map端实现Join可以大大优化Map到Reduce的数据传输量。原创 2012-07-31 09:17:11 · 794 阅读 · 0 评论 -
combiner学习要点
一、作用1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示:map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3)2、combiner还具有类似本地的redu转载 2012-07-10 15:42:33 · 689 阅读 · 0 评论 -
Hadoop 参数配置命令_简单范例
通过命令 :Hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks的方式来将已经存在咋hdfs上的数据进行大块化。调整运行参数( -Dmapred.max.split.size=$[16*1024*1024] ),或者在配置文件中对将 m原创 2012-07-20 10:12:07 · 1027 阅读 · 0 评论 -
Hadoop执行shell脚本
分享个自己的hadoop 执行的shell脚本,不过对于会写shell脚本的人估计用不到,对于不会写shell脚本的人似乎又看不懂。如果有兴趣学习的话可以私下联系。至于脚本中涉及的相关文件(源码/compile.sh),未能上传。权且做个记录,方便自己后期回顾而已。由于仅供自己测试用,所以比较粗糙执行时:直接执行程序hadoop@namenode#./Hadoo原创 2012-07-17 16:46:05 · 6783 阅读 · 1 评论 -
MapReduce高级编程之本地聚集与Combinner
本篇主要介绍Combinner,这个MapReduce Shuffle中占有重要地位,他能减少磁盘I/O以及网络Fetch时的数据迁移量,在MapReduce Shuffle中存在着三次排序(Map端两次,reduce端一次),每次排序时便会用上一次Combinner函数,也就是这个可有可无的函数一旦定义会被三次调用~~ 然而Combinner的使用需要注意程序的差错性,而且有些情转载 2012-07-10 17:08:51 · 2590 阅读 · 0 评论 -
Mapreduce pairs算法 实现
今天实现了pairs算法,但是出于公司保密协议的规定,不能够随意把代码分享出来。简单分享Map,Reduce,MaruPairs三个类,要实现MaruPairs,还需要重写自己的Comparator类,做点优化。程序功能是判断风扇fan1开启下时,风扇fan2开启的比率。前三个类代码粘帖如下:Map类: public static class MyMap exte原创 2012-07-25 15:09:03 · 2707 阅读 · 0 评论