排序:
默认
按更新时间
按访问量

关于Hadoop中reducer端combiner的一些思考

什么是Combiner Functions “Many MapReduce jobs are limited by the bandwidth available on the cluster, so it pays to minimize the data transferred betw...

2012-05-23 00:11:18

阅读数:4132

评论数:0

如何在Java中选择Map/List/Set

很实用,分享一下。 简单版本 复杂版本 参考: http://initbinder.com/articles/cheat-sheet-for-selecting-maplistset-in-java.html http://www.sergiy.ca/guide-to...

2012-04-13 06:03:05

阅读数:3923

评论数:4

Java的内存结构(Memory Structure)和垃圾收集(Garbage Collection)图解

JVM 内存包含如下几个部分: Heap Memory 存放Java对象 Non-Heap Memory 存放类加载信息和其它meta-dataOther 存放JVM 自身代码等 在JVM启动时,就已经保留了固定的内存空间给Heap内存,这部分内存并不一定都会被JVM使用,但是可以...

2012-04-13 02:48:41

阅读数:22099

评论数:23

Java常见容器(Container)关系图

Java提供了丰富的数据类型以实现各种操作,下图供参考 大图下载: http://bit.ly/Hf3KDx 参考:Think In Java 4th Edition

2012-04-04 12:33:40

阅读数:6286

评论数:1

[算法] 找到最相邻的3元组

问题如下:  You are given with three sorted arrays ( in ascending order), you are  required to find a triplet ( one element from each array) such that di...

2012-03-29 22:50:01

阅读数:2610

评论数:0

Hadoop套装软件包

如果你在使用Hadoop的同时,还想使用HBase,Hive等,一个个的安装实在是费时费力。一个打包的套装就解决了这个问题。下面介绍几个市面上最重量级公司的产品。 建议下载虚拟机版本进行测试或者评估。 Cloudera’s Distribution Including Apache Had...

2012-03-21 08:08:54

阅读数:4032

评论数:0

Apache Hadoop 0.23 介绍

Hadoop 1.0 (0.20.2×) 终于在27 December, 2011正式发布了【1】。下面是一个Hadoop的简单历史【2】: 这个也是目前最稳定的版本。新的版本也在开发之中,那就是0.23或者2.0吧!在新版本中引入了很多新的特性,其中着重说一个: HDFS F...

2012-01-13 05:50:00

阅读数:3850

评论数:2

Perl中的闭包(closure)

什么是闭包,“This is a notion out of the Lisp world that says if you define an anonymous function in a particular lexical context, it pretends to run in th...

2011-12-17 03:44:57

阅读数:3644

评论数:0

回调函数(callback)浅析

编程一段时间之后,都会或多或少的接触到“回调函数”的概念,我对这个概念的理解也是浅尝辄止,就此分享一些浅见。 "软件模块之间总是存在着一定的接口,从调用方式上,可以把他们分为三类:同步调用、回调和异步调用。同步调用是一种阻塞式调用,调用方要等待对方执行完毕才返回,它是一种单向调用;回调...

2011-12-17 03:19:37

阅读数:3126

评论数:2

实时数据分析Real-time data analysis frameworks (or stream system)

最近的工作中涉及要设计一个系统可以实时的监控系统的状态,比如hadoop任务的执行情况,服务器的健康等。这个系统需要实时的处理对象产生的信息,并发送给用户。 这个系统显然需要具备如下特性: 可靠性大数据处理实时性 显然这将是一个基于Hadoop上的项目,目前可供参考的有 Kaf...

2011-12-17 01:41:19

阅读数:2854

评论数:0

如何编写MapReduce代码

关于maperduce,可以参考:http://en.wikipedia.org/wiki/MapReduce 这里假设你具备一定的hadoop编程经验。 Mapper接受原始输入,比如网站日志,分析并输出中间结果。经历排序,分组成为Reducer的输入,经过统计汇总,输出结果。当然这个过...

2011-12-01 04:16:28

阅读数:3454

评论数:0

2011-11~17 新闻采集

Microsoft will release Win 8. (Developer Preview) With Bitcasa, The Entire Cloud Is Your Hard Drive For Only $10 Per Month (云端存储越来越

2011-09-14 08:21:01

阅读数:2063

评论数:0

安装和使用Oracle Instant Client 和 SQLPlus

首先去官方网站下载适当的版本,我是win7 64位系统,所以就下载了最新的instantclient-basic-windows.x64-11.2.0.2.0和instantclient-sqlplus-windows.x64-11.2.0.2.0,解压缩到同一个文件下,比如in

2011-08-20 02:15:33

阅读数:8133

评论数:0

用Devel::NYTProf 优化perl脚本性能

前几天发一下一个脚本运行非常慢,使用time只能知道总的时间,却无法确认原因,发现Devel::NYTProf是个很不错的工具。 如果你有root权限,则: perl -MCPAN -e shell >installJSON::Any(不安这个东东,在nyt生成html的时

2011-08-18 05:58:46

阅读数:3197

评论数:0

Perl中的grep和map

grep返回一个数字中符合条件的所有元素;map对数字中所有元素实施转化并返回结果。两者都遍历了数组,但一个用来搜索,一个用来转化。两者都支持表达式或者代码块。#!/usr/bin/perl -w use strict; #get positive number my @num

2011-08-10 01:13:29

阅读数:2479

评论数:0

LINUX Shell 下求两个文件交集和差集的办法

假设两个文件FILE1和FILE2用集合A和B表示,FILE1内容如下:abceda FILE2内容如下:cdac基本上有两个方法,一个是comm命令,一个是grep命令。分别介绍如下: comm命令, Compare sorted files FILE1 and FILE2 line by li...

2011-07-01 13:44:00

阅读数:54885

评论数:5

如何在Java中定义常量(Constant)

这里列举4种方法,各有千秋,要看具体的应用场合了。

2011-05-14 12:07:00

阅读数:134030

评论数:7

WeakReference,SoftReference 和 PhatomReference 浅析

<br />前几天发了一篇关于垃圾收集的帖子,自己也不是这方面的专家,所以肯定有很多问题和错误,也请大家多多包涵和指教。<br />今天再进一步谈一下这个几个Reference吧。老实说,这几个名词我也是最近才听说,平时也没有实际使用过,但是确实在java 1.2就存在的,...

2011-04-24 15:16:00

阅读数:4602

评论数:4

也谈谈Java的垃圾收集(garbage collection)

垃圾收集是Java语言非常显著的特点,不像C语言那样,老是要考虑什么数字的越界什么的。什么是垃圾(garbage)呢?“An object is considered garbage when it can no longer be reached from any pointer in the ...

2011-04-21 12:48:00

阅读数:11003

评论数:25

Hadoop书籍介绍

市面上关于Hadoop的书籍其实并不多,好像都是外国人的,所以基本上都要看英文的,我就介绍一下我看过的和正在看的吧。

2011-03-30 02:34:00

阅读数:8490

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭