关于Hadoop中reducer端combiner的一些思考

什么是Combiner Functions “Many MapReduce jobs are limited by the bandwidth available on the cluster, so it pays to minimize the data transferred between map and reduce tasks. Hadoop allows the user to...
阅读(3547) 评论(0)

如何在Java中选择Map/List/Set

很实用,分享一下。 简单版本 复杂版本 参考: http://initbinder.com/articles/cheat-sheet-for-selecting-maplistset-in-java.html http://www.sergiy.ca/guide-to-selecting-appropriate-map-collection-in-java/...
阅读(3171) 评论(4)

Java的内存结构(Memory Structure)和垃圾收集(Garbage Collection)图解

JVM 内存包含如下几个部分: Heap Memory 存放Java对象 Non-Heap Memory 存放类加载信息和其它meta-dataOther 存放JVM 自身代码等 在JVM启动时,就已经保留了固定的内存空间给Heap内存,这部分内存并不一定都会被JVM使用,但是可以确定的是这部分保留的内存不会被其他进程使用。这部分内存大小由 -Xmx 参数指定。而另一部分内存在J...
阅读(19990) 评论(23)

Java常见容器(Container)关系图

Java提供了丰富的数据类型以实现各种操作,下图供参考 大图下载: http://bit.ly/Hf3KDx 参考:Think In Java 4th Edition...
阅读(4280) 评论(0)

[算法] 找到最相邻的3元组

问题如下:  You are given with three sorted arrays ( in ascending order), you are  required to find a triplet ( one element from each array) such that distance  is minimum.  Distance is defined like th...
阅读(2205) 评论(0)

Hadoop套装软件包

如果你在使用Hadoop的同时,还想使用HBase,Hive等,一个个的安装实在是费时费力。一个打包的套装就解决了这个问题。下面介绍几个市面上最重量级公司的产品。 建议下载虚拟机版本进行测试或者评估。 Cloudera’s Distribution Including Apache Hadoop (CDH) CDH3 Update 3 Packaging To view t...
阅读(3402) 评论(0)

Apache Hadoop 0.23 介绍

Hadoop 1.0 (0.20.2×) 终于在27 December, 2011正式发布了【1】。下面是一个Hadoop的简单历史【2】: 这个也是目前最稳定的版本。新的版本也在开发之中,那就是0.23或者2.0吧!在新版本中引入了很多新的特性,其中着重说一个: HDFS FederationNextGen MapReduce HDFS Federation 目前的H...
阅读(3460) 评论(2)

Perl中的闭包(closure)

什么是闭包,“This is a notion out of the Lisp world that says if you define an anonymous function in a particular lexical context, it pretends to run in that context even when it's called outside of the con...
阅读(3179) 评论(0)

回调函数(callback)浅析

编程一段时间之后,都会或多或少的接触到“回调函数”的概念,我对这个概念的理解也是浅尝辄止,就此分享一些浅见。 "软件模块之间总是存在着一定的接口,从调用方式上,可以把他们分为三类:同步调用、回调和异步调用。同步调用是一种阻塞式调用,调用方要等待对方执行完毕才返回,它是一种单向调用;回调是一种双向调用模式,也就是说,被调用方在接口被调用时也会调用对方的接口;异步调用是一种类似消息或事件的机制,不过...
阅读(2702) 评论(2)

实时数据分析Real-time data analysis frameworks (or stream system)

最近的工作中涉及要设计一个系统可以实时的监控系统的状态,比如hadoop任务的执行情况,服务器的健康等。这个系统需要实时的处理对象产生的信息,并发送给用户。 这个系统显然需要具备如下特性: 可靠性大数据处理实时性 显然这将是一个基于Hadoop上的项目,目前可供参考的有 Kafka: Kafka is a messaging system that was originally...
阅读(2471) 评论(0)

如何编写MapReduce代码

关于maperduce,可以参考:http://en.wikipedia.org/wiki/MapReduce 这里假设你具备一定的hadoop编程经验。 Mapper接受原始输入,比如网站日志,分析并输出中间结果。经历排序,分组成为Reducer的输入,经过统计汇总,输出结果。当然这个过程可以是多个。 其中Mapper比较简单,但是需要对输入具有深入的理解,不光是格式还包括意义。其中有...
阅读(3079) 评论(0)

2011-11~17 新闻采集

Microsoft will release Win 8. (Developer Preview) With Bitcasa, The Entire Cloud Is Your Hard Drive For Only $10 Per Month (云端存储越来越...
阅读(1779) 评论(0)

安装和使用Oracle Instant Client 和 SQLPlus

首先去官方网站下载适当的版本,我是win7 64位系统,所以就下载了最新的instantclient-basic-windows.x64-11.2.0.2.0和instantclient-sqlplus-windows.x64-11.2.0.2.0,解压缩到同一个文件下,比如in...
阅读(6764) 评论(0)

用Devel::NYTProf 优化perl脚本性能

前几天发一下一个脚本运行非常慢,使用time只能知道总的时间,却无法确认原因,发现Devel::NYTProf是个很不错的工具。 如果你有root权限,则: perl -MCPAN -e shell >installJSON::Any(不安这个东东,在nyt生成html的时...
阅读(2700) 评论(0)

Perl中的grep和map

grep返回一个数字中符合条件的所有元素;map对数字中所有元素实施转化并返回结果。两者都遍历了数组,但一个用来搜索,一个用来转化。两者都支持表达式或者代码块。#!/usr/bin/perl -w use strict; #get positive number my @num...
阅读(2126) 评论(0)

LINUX Shell 下求两个文件交集和差集的办法

假设两个文件FILE1和FILE2用集合A和B表示,FILE1内容如下:abceda FILE2内容如下:cdac基本上有两个方法,一个是comm命令,一个是grep命令。分别介绍如下: comm命令, Compare sorted files FILE1 and FILE2 line by line. With  no op...
阅读(40507) 评论(4)

如何在Java中定义常量(Constant)

这里列举4种方法,各有千秋,要看具体的应用场合了。...
阅读(93707) 评论(6)

WeakReference,SoftReference 和 PhatomReference 浅析

前几天发了一篇关于垃圾收集的帖子,自己也不是这方面的专家,所以肯定有很多问题和错误,也请大家多多包涵和指教。今天再进一步谈一下这个几个Reference吧。老实说,这几个名词我也是最近才听说,平时也没有实际使用过,但是确实在java 1.2就存在的,看来真的是学无止境啊。 softly reachable:The object is the referent of a SoftReference. The garbage collector will attempt to...
阅读(4074) 评论(4)

也谈谈Java的垃圾收集(garbage collection)

垃圾收集是Java语言非常显著的特点,不像C语言那样,老是要考虑什么数字的越界什么的。什么是垃圾(garbage)呢?“An object is considered garbage when it can no longer be reached from any pointer in the running program.”首先要了解一下内存的分配:静态分配( Static Allocation ):静态变量和全局变量的分配形式。自动分配( Automatic Allocation ):存放基本类型的...
阅读(9712) 评论(25)

Hadoop书籍介绍

市面上关于Hadoop的书籍其实并不多,好像都是外国人的,所以基本上都要看英文的,我就介绍一下我看过的和正在看的吧。...
阅读(7908) 评论(1)
348条 共18页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:935997次
    • 积分:11574
    • 等级:
    • 排名:第1261名
    • 原创:308篇
    • 转载:39篇
    • 译文:1篇
    • 评论:194条
    最新评论