2013年09月_XifengHZ

12月 11月 10月 09月

原创 Hadoop Mapreduce分区、分组、连接以及辅助排序（也叫二次排序）过程详解

1、MapReduce中数据流动（1）最简单的过程： map - reduce （2）定制了partitioner以将map的结果送往指定reducer的过程：　map - partition - reduce （3）增加了在本地先进性一次reduce（优化）过程：　map - combin(本地reduce) - partition -reduce2、Mapred

2013-09-28 12:07:05 3231 1

原创 MapReduce程序调试工具--MRUnit简介与使用

MRUnit简介：当hadoop的MapReduce作业提交到集群环境中运行，对于出问题的定位比较是比较麻烦的，有时需要一遍遍的修改代码和打印出日志来排查一个很小的问题，如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug。然而做MapReduce的单元测试会有一个障碍，比如Map和Reduce一些参数对象是在运行时由hadoop框架传入

2013-09-26 16:12:39 4504

原创 SSH原理探析与Linux下SSH命令使用方法详解

mark一下，后面写。。。

2013-09-25 14:32:59 636

转载深入理解java中的clone

目录预备知识为什么要clone Object的clone以及为什么如此实现如何clone 对clone的态度其他的选择和Serializable的比较性能预备知识为了理解java的clone，有必要先温习以下的知识。 java的类型，java的类型分为两大类，一类为primitive，如int，另一类为引用类型,如String

2013-09-25 11:17:15 592

转载 Iterator 和 Iterable 接口的区别

java.lang.Iterable java.util.Iterator 来自百度知道： Iterator是迭代器类，而Iterable是接口。好多类都实现了Iterable接口，这样对象就可以调用iterator()方法。一般都是结合着用，比如 HashMap类就实现了Iterable接口，而要访问或打印出Map中所有内容时，就可以这样： HashMap has

2013-09-23 18:39:57 2812

转载牛人教你如何秒杀99%的海量数据处理面试题

摘要: 所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。 ... ...作者：July出处：结构之法算法之道blog前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如

2013-09-23 10:39:15 965

原创 Nuth | Hadoop完全分布式运行学习笔记

原始URL：hdfs://10.66.27.18.:9000/user/hadoop/urldir url.txt -->http://blog.tianya.cnhdfs://10.66.27.18.:9000/user/hadoop/urldir url2.txt -->http://bbs.tianya.cn直接生成：bin/nutch crawl urldir -dir c

2013-09-16 11:02:42 3858

原创 Green UML Eclipse插件

软件下载最近在看Hadoop源代码，感觉类之间的关系比较复杂，有点混乱。于是想着用一个UML类图创建工具。于是我们可以利用Green UML从代码创建UML类图，或者通过UML类图来生代码。但是按照网上方法安装Green插件时，由于eclipse gef green三个组件版本不兼容，总是出现Type is not supported.错误，估计是版本的问题。

2013-09-10 10:15:51 5372 3

原创 Linux最实用的命令

alias：用于简记长命令，具体是打开/home/user/.bashrc，在里面添加：alias haha='cd /usr/hadoop/hbase/conf/hbase-site.xml'

2013-09-08 10:52:11 732

转载 Reactor模式

Reactor模式是处理并发I/O比较常见的一种模式，用于同步I/O，中心思想是将所有要处理的I/O事件注册到一个中心I/O多路复用器上，同时主线程阻塞在多路复用器上；一旦有I/O事件到来或是准备就绪(区别在于多路复用器是边沿触发还是水平触发)，多路复用器返回并将相应I/O事件分发到对应的处理器中。　　Reactor是一种事件驱动机制，和普通函数调用的不同之处在于：应用程序不是主动的调用某

2013-09-05 14:32:00 5109

转载 Trie树（字典树）的原理及其实现

Trie,又称字典树、单词查找树,是一种树形结构，用于保存大量的字符串。它的优点是：利用字符串的公共前缀来节约存储空间。Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法

2013-09-05 13:47:44 853