- 博客(8)
- 资源 (7)
- 收藏
- 关注
原创 利用MapReduce解决在海量数据中求Top K个数
利用MapReduce求海量数据中最大的K个数 package jtlyuan.csdn;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;
2012-05-12 19:59:35 11805 4
原创 MapReduce求海量数据中的最大值
利用MapReduce求解海量数据文件中的最大值思路:利用Mapper类中的cleanup()函数,因为cleanup()函数是在所有的map()完成之后才执行的。 package jtlyuan.csdn;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import or
2012-05-12 19:57:48 6432 1
原创 MapReduce中Mapper类和Reducer类4函数解析
Mapper类4个函数的解析protected void setup(Mapper.Context context) throws IOException,InterruptedException //Called once at the beginning of the taskprotected void cleanup(Mapper.Context context)throws IO
2012-05-12 19:56:01 5487
原创 MapReduce模板
package jtlyuan.csdn.template;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.
2012-05-09 20:21:32 1325
原创 Hadoop数据输入输出格式
MapReduce处理的基本原则之一是将输入数据分割成块,这些快可以在多台计算机上并行处理。FSDataInputStream类扩展了java中的DataInputStream类,以达到随机读的特性,避免了从同开始读到分片的位置,从而提高了效率。输入格式:InputFormat类定义了如何分割和读取输入文件,其中一个子类是FileInputFormat抽象类。当开启Hadoop作业
2012-05-04 20:04:49 4894
原创 剖解MapReduce
Hadoop数据类型为了能让MapReduce的key/value对能够在集群中移动,MapReduce框架提供了一个序列化key/value对的方法但MapReduce并不允许任意的类都能做为key,只有实现了WriableComparable或者Wirable接口(说明,Wriable也实现了WriableComparable接口)的类才能做为键,因为在reduce阶段要根据key来进
2012-05-04 20:01:18 1208
原创 Hadoop系统操作类FileSystem
FileSystem类,Hadoop文件API的起点,是一个一个与文件系统交互的抽象类,其对HDFS的操作由不同的具体实现子类来实现。通过下面的方法来获取一个具体的FileSystem实例:获取用于HDFS系统的实例:public static FileSystem get(Configuration conf) throws IOException获取用于本地文件系统的实例:public
2012-05-04 19:53:22 2217
原创 Hadoop心得
学习Hadoop已经一个月了,才刚刚开始在Eclipse中运行了第一个WordCOunt的项目,在学习中遇到了很多意想不到的种种问题,从开始的Cygwin然后变成CenOS再到现在的Ubuntu,从开始没有接触过Linux,到现在基本熟悉大体的命令操作和一下原理性的东西,进行安装JDK,Hadoop。。。。。在过程种,可谓困难重重(有点夸张),有些问题很顺利,但是经常遇到的问题萍百度,google
2012-05-02 09:17:24 2721 1
Spring学习笔记(马士兵spring视频笔记).doc
2012-01-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人