- 博客(4)
- 资源 (5)
- 收藏
- 关注
原创 mapreduce作业调优tips
这几天一直在优化job,下面是我认为有用的一些tips。 推测执行在整个集群上关闭,特定需要的作业单独开启,一般可以省下约5%~10%的集群资源。由mapred.map.task.speculative.execution[default true]和mapred.reduce.task.speculative.execution[default true]分别控制map和reduce的推测
2013-01-30 18:50:48 2236
原创 Pangool:行走在mapreduce之上
Tuple mapreduce:这篇文章:Tuple MapReduce: beyond classic MapReduce 介绍了Pangool的主体思想,利用tuple,在经典mapreduce上提供更易用的API。 特性: 支持三元组而不是key-value(直观上三元组的确能对group、sort、join等操作有更好的支持)简单的二次排序方式内建的reduce端连接保
2013-01-23 15:42:43 1253
原创 mapreduce编程(一):输入文件的过滤
描述:dir/目录下存储了系统每一天的出现的cookie,各天的cookie分别存放在各自的dir/time目录下,如2012-12-21日的cookie存放在dir/2012-12-21目录下。 dir/2012-12-21下的各个文件存储的是出现的cookie,一个cookie的多次出现会记录多次(也就是有重复),dir/2012-12-21下的文件名为prefix-tag-suffix
2013-01-18 11:55:37 3168
原创 Could not resolve archetype org.apache.maven.archetypes:maven-archetype-quickstart
之前都是命令行创建,今天用eclipse装m2eclipse的时候装完后创建项目的时候报错: Could not resolve archetype org.apache.maven.archetypes:maven-archetype-quickstart:RELEASE from any of the configured repositories. 解决方式: 1.从h
2013-01-15 11:57:36 5827 2
The C++ Standard Library, A Tutorial And Reference
2011-09-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人