- 博客(11)
- 资源 (8)
- 收藏
- 关注
原创 Hadoop Mapreduce分区、分组、连接以及辅助排序(也叫二次排序)过程详解
1、MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce (3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地reduce) - partition -reduce2、Mapred
2013-09-28 12:07:05 3231 1
原创 MapReduce程序调试工具--MRUnit简介与使用
MRUnit简介: 当hadoop的MapReduce作业提交到集群环境中运行,对于出问题的定位比较是比较麻烦的,有时需要一遍遍的修改代码和打印出日志来排查一个很小的问题,如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug。然而做MapReduce的单元测试会有一个障碍,比如Map和Reduce一些参数对象是在运行时由hadoop框架传入
2013-09-26 16:12:39 4504
转载 深入理解java中的clone
目录 预备知识 为什么要clone Object的clone以及为什么如此实现 如何clone 对clone的态度 其他的选择 和Serializable的比较 性能 预备知识 为了理解java的clone,有必要先温习以下的知识。 java的类型,java的类型分为两大类,一类为primitive,如int,另一类为引用类型,如String
2013-09-25 11:17:15 592
转载 Iterator 和 Iterable 接口的区别
java.lang.Iterable java.util.Iterator 来自百度知道: Iterator是迭代器类,而Iterable是接口。 好多类都实现了Iterable接口,这样对象就可以调用iterator()方法。 一般都是结合着用,比如 HashMap类就实现了Iterable接口,而要访问或打印出Map中所有内容时,就可以这样: HashMap has
2013-09-23 18:39:57 2812
转载 牛人教你如何秒杀99%的海量数据处理面试题
摘要: 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 ... ...作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如
2013-09-23 10:39:15 965
原创 Nuth | Hadoop完全分布式运行 学习笔记
原始URL:hdfs://10.66.27.18.:9000/user/hadoop/urldir url.txt -->http://blog.tianya.cnhdfs://10.66.27.18.:9000/user/hadoop/urldir url2.txt -->http://bbs.tianya.cn直接生成:bin/nutch crawl urldir -dir c
2013-09-16 11:02:42 3858
原创 Green UML Eclipse插件
软件下载 最近在看Hadoop源代码,感觉类之间的关系比较复杂,有点混乱。于是想着用一个UML类图创建工具。于是我们可以利用Green UML从代码创建UML类图,或者通过UML类图来生代码。 但是按照网上方法安装Green插件时,由于eclipse gef green三个组件版本不兼容,总是出现Type is not supported.错误,估计是版本的问题。
2013-09-10 10:15:51 5372 3
原创 Linux最实用的命令
alias:用于简记长命令,具体是打开/home/user/.bashrc,在里面添加:alias haha='cd /usr/hadoop/hbase/conf/hbase-site.xml'
2013-09-08 10:52:11 732
转载 Reactor模式
Reactor模式是处理并发I/O比较常见的一种模式,用于同步I/O,中心思想是将所有要处理的I/O事件注册到一个中心I/O多路复用器上,同时主线程阻塞在多路复用器上;一旦有I/O事件到来或是准备就绪(区别在于多路复用器是边沿触发还是水平触发),多路复用器返回并将相应I/O事件分发到对应的处理器中。 Reactor是一种事件驱动机制,和普通函数调用的不同之处在于:应用程序不是主动的调用某
2013-09-05 14:32:00 5109
转载 Trie树(字典树)的原理及其实现
Trie,又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串。它的优点是:利用字符串的公共前缀来节约存储空间。Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法
2013-09-05 13:47:44 853
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人