gpu hadoop

gpu hadoop from :http://www.csdn.net/article/2013-07-02/2816086-hadoop-gpu

2014-05-29 10:46:20

阅读数:1566

评论数:0

hadoop

hadoop的使用记录, 我在测试一部分数据,测试过程中,想ls出来看看,这样难免会修改job的outputformat,我在测一个工作任务,结果呢,我改了reducer的输出格式,也改了job的设置,可还是出错。开始不明白啊,我这个大粗人啊。 今天看job的设置,突然看到了,里面有c...

2013-08-12 15:56:33

阅读数:592

评论数:0

mrunit测试

mrunit是干什么的?为测试hadoop用的。 其中很多功能是无法测试到的,需要写mock。 而对于多输入吧,mapreducerdriver又没有办法setmapper,所以很是麻烦。 同事吧,如果你的key是一个keyvalue对,测试起来也很麻烦。以前是同事从写了其shuff...

2013-07-25 14:02:13

阅读数:689

评论数:0

hadoop fs -put

hadoop fs -put    filename   hdfs 这个时候,如果hdfs文件目录已经存在,此时则会将file放在hdfs/下的,而如果hdfs文件目录不存在,则把file/*的文件放在目录下,即此时hdfs目录下不存在filename. 比如 hadoop f...

2012-11-28 14:30:30

阅读数:36423

评论数:0

pig udf实现

pig的UDF实现了用简单的pig命令难以实现的功能,一般是直接对tuple操作的。 而且这个有个好处是用户可以自己定义的。 自己写udf,要注意几点: 1. udf传入的参数是tuple。 2. udf操作时,有点类似于对group后的结果进行操作,我们可以对group内...

2012-09-18 14:25:51

阅读数:1974

评论数:0

flatten

今天通过不断的尝试,终于知道这个flatten的用法了。其实吧,有时候关键是要test,才能充分理解解说。不过,同事给说的有点问题,误导了我。整的我一直没明白怎么回事。 这是官方的解释: The FLATTEN operator looks like a UDF syntactical...

2012-09-11 17:59:36

阅读数:6643

评论数:1

twitter

twitter 和facebook的很多文章还是值得学习的,尤其是其工程性特别强。 http://www.umiacs.umd.edu/~jimmylin/publications/index.html 大多是关于twitter的文章。 http://pleasescoo...

2012-07-18 17:34:12

阅读数:351

评论数:0

secondary sort

class FirstPartitioner extends Partitioner {     @Override     public int getPartition(Text key, MapWritable value, int numPartitions) {       Str...

2012-03-30 14:13:54

阅读数:570

评论数:0

hfile到hbase

去年年底留下的一个问题,我当时查找错误时,就觉得这个问题肯定是我使用的方法不对,绝对不是hbase的bug。可当时大家都要保证稳定过年,所以也就没有找人帮我来查找这个问题。 具体是我将大文件通过写入hfile,然后再load到hbase中。但是我发现hbase中几乎没什么key valu...

2012-03-10 16:14:51

阅读数:861

评论数:0

hfile的操作

hfile到hbase load时,是把整个hfile文件mv走的,不是cp。 难怪这么快啊……TMD,今天因为这个测试半天,我发现我就是个IT白痴……

2011-12-16 17:38:48

阅读数:455

评论数:0

马虎大意

擦,我特别想说脏话,郁闷死了。 一个job,我把目录写错了,怎么都不对。后来别人帮我看了好几遍,才发现是目录写错了。我实在觉得抱歉,唉,感觉郁闷死了。

2011-12-14 21:32:56

阅读数:526

评论数:0

xml文件加载

今天想把一个xml文件加载到本地,hadoop下,怎么都不行了。appcontext查找了,没仔细看api,后来同事一看就改过来了。哎,我应该用 FileSystemXmlApplicationContext,原来用的是classpath的方式。其实我也觉得这个应该修改,可我看了半天,没找到那个...

2011-12-08 18:07:35

阅读数:893

评论数:0

分布式下读取文件

advertiserFile = context.getConfiguration().get(ADVERTISER_INPUT);     FileSystem adSystem = FileSystem.get(context.getConfiguration());     FSData...

2011-11-24 18:11:06

阅读数:1101

评论数:0

hadoop的使用

使用这个大象已经有一两个月的时间了吧。基本上自己编程实现任务是有思路了,自己写了几个工作任务,但是都是在别人的程序的基础上的。具体加载多少东西,我觉得我还是照本宣科吧,很多东西没有用到就不去深究。最近搞定了多输入文档的使用,多个mapper使用同一个reducer,使用原理其实和

2011-09-22 07:18:52

阅读数:568

评论数:0

参数传递,map reduce

今天尝试了参数的传递,试了不少方法,最后还是利用了map reduce自带的counter解决的。哎,我还是无法完全实现自由的参数传递,hadoop中传个参数够麻烦的。 另外,发现程序中有些地方可能有问题,因为计算的结果加和不是一,这是令人头疼的一件事情啦。应该是前一个

2011-09-07 13:44:10

阅读数:757

评论数:2

mrunit

最近在开始写testcase,在hadoop下的例程要用mrunit,这里有一篇很好的介绍,转载一下吧。 http://blog.csdn.net/gpcuster/article/details/4633265 前提 1. 了解JUnit4.x的使

2011-09-02 11:14:10

阅读数:1440

评论数:0

map reduce

题外话,非常想家,表弟过来住几天回家了,他一走我就开始想家了,非常想家,没这么脆弱过的。 转入正题: hadoop上,map完成了数据的处理和过滤,map的输出是reducer,combiner的输入,而后把由map过滤后的数据通过combiner和reducer可以把相同k

2011-08-29 13:30:05

阅读数:418

评论数:0

mapreduce

今天写了个程序,怎么着都调试出错,说是输出的数据格式不对。我查看了mapper中,确实格式没错阿。后来才看到是我的job中设置成了mapwritable,而我的mapper中用的是intwritable格式,因此出现了冲突。 这个东东的使用看来不是那么简单的,参数设置和中间ma

2011-08-24 16:07:16

阅读数:684

评论数:1

IntWritable, int

今天搞定了ubuntu下安装ie浏览器,真是不可亲阿。 另外,在mapreduce中,values的处理,IntWritable是一个对象,而如果想要用int参加计算,那么我们需要调用IntWritable对象的一个成员get(),这个函数返回int.

2011-08-19 15:26:30

阅读数:10065

评论数:1

分布式计算

分布式计算,原来涉及到的都是一些简单的算法实现和测试,现在要在hadoop上跑模型,当然内部的很多东西自己仍然是捉摸不透的,所以不敢贸然下手。这是我的一个特点吧,对黑盒子似地东西,不敢随便动手。 是不是所有的算法都适合分布式系统上跑,这种分布式的计算方式对模型的效果有什

2011-08-11 10:19:10

阅读数:378

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭