自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

键盘上舞动的青春

小菜的学习笔记

  • 博客(11)
  • 资源 (8)
  • 收藏
  • 关注

原创 Hadoop Mapreduce分区、分组、连接以及辅助排序(也叫二次排序)过程详解

1、MapReduce中数据流动   (1)最简单的过程:  map - reduce   (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce   (3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地reduce) - partition -reduce2、Mapred

2013-09-28 12:07:05 3231 1

原创 MapReduce程序调试工具--MRUnit简介与使用

MRUnit简介:        当hadoop的MapReduce作业提交到集群环境中运行,对于出问题的定位比较是比较麻烦的,有时需要一遍遍的修改代码和打印出日志来排查一个很小的问题,如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug。然而做MapReduce的单元测试会有一个障碍,比如Map和Reduce一些参数对象是在运行时由hadoop框架传入

2013-09-26 16:12:39 4504

原创 SSH原理探析与Linux下SSH命令使用方法详解

mark一下,后面写。。。

2013-09-25 14:32:59 636

转载 深入理解java中的clone

目录 预备知识 为什么要clone Object的clone以及为什么如此实现 如何clone 对clone的态度 其他的选择 和Serializable的比较 性能 预备知识 为了理解java的clone,有必要先温习以下的知识。 java的类型,java的类型分为两大类,一类为primitive,如int,另一类为引用类型,如String

2013-09-25 11:17:15 592

转载 Iterator 和 Iterable 接口的区别

java.lang.Iterable java.util.Iterator 来自百度知道: Iterator是迭代器类,而Iterable是接口。 好多类都实现了Iterable接口,这样对象就可以调用iterator()方法。 一般都是结合着用,比如 HashMap类就实现了Iterable接口,而要访问或打印出Map中所有内容时,就可以这样: HashMap has

2013-09-23 18:39:57 2812

转载 牛人教你如何秒杀99%的海量数据处理面试题

摘要: 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 ... ...作者:July出处:结构之法算法之道blog前言   一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如

2013-09-23 10:39:15 965

原创 Nuth | Hadoop完全分布式运行 学习笔记

原始URL:hdfs://10.66.27.18.:9000/user/hadoop/urldir  url.txt -->http://blog.tianya.cnhdfs://10.66.27.18.:9000/user/hadoop/urldir  url2.txt -->http://bbs.tianya.cn直接生成:bin/nutch crawl urldir -dir c

2013-09-16 11:02:42 3858

原创 Green UML Eclipse插件

软件下载        最近在看Hadoop源代码,感觉类之间的关系比较复杂,有点混乱。于是想着用一个UML类图创建工具。于是我们可以利用Green UML从代码创建UML类图,或者通过UML类图来生代码。       但是按照网上方法安装Green插件时,由于eclipse gef green三个组件版本不兼容,总是出现Type is not supported.错误,估计是版本的问题。

2013-09-10 10:15:51 5372 3

原创 Linux最实用的命令

alias:用于简记长命令,具体是打开/home/user/.bashrc,在里面添加:alias haha='cd /usr/hadoop/hbase/conf/hbase-site.xml'

2013-09-08 10:52:11 732

转载 Reactor模式

Reactor模式是处理并发I/O比较常见的一种模式,用于同步I/O,中心思想是将所有要处理的I/O事件注册到一个中心I/O多路复用器上,同时主线程阻塞在多路复用器上;一旦有I/O事件到来或是准备就绪(区别在于多路复用器是边沿触发还是水平触发),多路复用器返回并将相应I/O事件分发到对应的处理器中。  Reactor是一种事件驱动机制,和普通函数调用的不同之处在于:应用程序不是主动的调用某

2013-09-05 14:32:00 5109

转载 Trie树(字典树)的原理及其实现

Trie,又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串。它的优点是:利用字符串的公共前缀来节约存储空间。Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法

2013-09-05 13:47:44 853

Maven实战-许晓斌(源代码以及清洗带目录版PDF文件)

Maven实战-许晓斌(源代码以及清洗带目录版PDF文件)

2014-05-18

nexus-2.0.3-bundle.zip

nexus-2.0.3-bundle.zip

2014-05-17

疯狂java讲义第二版源码

源代码

2014-01-17

Hadoop实现大矩阵乘法

用Hadoop实现的大矩阵乘法,包括代码设计思路以及可以执行的源代码。已在hadoop-1.0.3平台测试通过,对初学者是很好的材料。

2014-01-09

机器学习中文版

机器学习中文版权威的机器学习指南 大数据时代必备

2013-10-13

Logistic回归模型——方法与应用全书

Logistic回归模型——方法与应用全书

2013-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除