- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 Hadoop学习总结之四:Map-Reduce的过程解析
一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = new JobClient(job);
2010-11-29 21:32:00 4177
原创 Hadoop学习总结之三:Map-Reduce入门
1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 0043011990999991950051
2010-11-29 21:31:00 4686
原创 LinkedIn公司实现的实时搜索引擎Zoie
一、总体架构 Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为: http://snaprojects.jira.com/wiki/display/ZOIE/Overview Zoie is a realtime indexing and search system, and as such needs to have relatively close coupling between the logically distinct Indexing an
2010-11-29 21:20:00 1751
LinkedIn公司实现的实时搜索引擎Zoie
一、总体架构Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:http://snaprojects.jira.com/wiki/display/ZOIE/OverviewZoie is a realtime indexing and search system, and as such needs to have relatively...
2010-11-29 21:19:49 145
原创 Hadoop学习总结之五:Hadoop的运行痕迹
在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。 本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。 一、环境的搭建 为了能够跟踪这些运行的痕迹,我们需要搭建一个特殊的环境,从而可以一步步的查看上一节提到的一些关键步骤所引起的变化。 我们首先搭建一个拥有一个NameNode(namenode:192.168.1.104),三个DataNode(datanode01:192.168
2010-11-23 00:29:00 3555
Hadoop学习总结之四:Map-Reduce的过程解析
一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = new ...
2010-11-19 23:48:10 120
Hadoop学习总结之三:Map-Reduce入门
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+0043011990999991950051512+0022+...
2010-11-14 18:26:01 151
Hadoop学习总结之二:HDFS读写过程解析
一、文件的打开1.1、客户端HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为:public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSCli...
2010-11-10 21:38:56 227
原创 Hadoop学习总结之二:HDFS读写过程解析
一、文件的打开 1.1、客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSClient.DFSDataInputStream(
2010-11-10 21:38:00 4691
Lucene 3.0 原理与代码分析
2010-02-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人