自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

forfuture1978的专栏

道生一,一生二,二生三,三生万物

  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hadoop学习总结之四:Map-Reduce的过程解析

一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static RunningJob runJob(JobConf job) throws IOException {   //首先生成一个JobClient对象   JobClient jc = new JobClient(job);

2010-11-29 21:32:00 4177

原创 Hadoop学习总结之三:Map-Reduce入门

1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 0043011990999991950051

2010-11-29 21:31:00 4686

原创 LinkedIn公司实现的实时搜索引擎Zoie

一、总体架构 Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为: http://snaprojects.jira.com/wiki/display/ZOIE/Overview Zoie is a realtime indexing and search system, and as such needs to have relatively close coupling between the logically distinct Indexing an

2010-11-29 21:20:00 1751

LinkedIn公司实现的实时搜索引擎Zoie

一、总体架构Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:http://snaprojects.jira.com/wiki/display/ZOIE/OverviewZoie is a realtime indexing and search system, and as such needs to have relatively...

2010-11-29 21:19:49 145

原创 Hadoop学习总结之五:Hadoop的运行痕迹

在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。 本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。 一、环境的搭建 为了能够跟踪这些运行的痕迹,我们需要搭建一个特殊的环境,从而可以一步步的查看上一节提到的一些关键步骤所引起的变化。 我们首先搭建一个拥有一个NameNode(namenode:192.168.1.104),三个DataNode(datanode01:192.168

2010-11-23 00:29:00 3555

Hadoop学习总结之四:Map-Reduce的过程解析

一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:public static RunningJob runJob(JobConf job) throws IOException {  //首先生成一个JobClient对象  JobClient jc = new ...

2010-11-19 23:48:10 120

Hadoop学习总结之三:Map-Reduce入门

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+0043011990999991950051512+0022+...

2010-11-14 18:26:01 151

Hadoop学习总结之二:HDFS读写过程解析

一、文件的打开1.1、客户端HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为:public FSDataInputStream open(Path f, int bufferSize) throws IOException {  return new DFSCli...

2010-11-10 21:38:56 227

原创 Hadoop学习总结之二:HDFS读写过程解析

一、文件的打开 1.1、客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public FSDataInputStream open(Path f, int bufferSize) throws IOException {   return new DFSClient.DFSDataInputStream(     

2010-11-10 21:38:00 4691

Lucene 3.0 原理与代码分析

本系列文章将详细描述几乎最新版本的Lucene的基本原理和代码分析。 其中总体架构和索引文件格式是Lucene 2.9的,索引过程分析是Lucene 3.0的。 鉴于索引文件格式没有太大变化,因而原文没有更新,原理和架构的文章中引用了前辈的一些图,可能属于早期的Lucene,但不影响对原理和架构的理解。 本系列文章尚在撰写之中,将会有分词器,段合并,QueryParser,查询语句与查询对象,搜索过程,打分公式的推导等章节。 提前给大家分享,希望大家批评指正。 Lucene学习总结之一:全文检索的基本原理 http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html Lucene学习总结之二:Lucene的总体架构 http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623596.html Lucene学习总结之三:Lucene的索引文件格式(1) http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html Lucene学习总结之三:Lucene的索引文件格式(2) http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html Lucene学习总结之三:Lucene的索引文件格式(3) http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html Lucene学习总结之四:Lucene索引过程分析(1) http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661439.html Lucene学习总结之四:Lucene索引过程分析(2) http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661440.html Lucene学习总结之四:Lucene索引过程分析(3) http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661441.html Lucene学习总结之四:Lucene索引过程分析(4) http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661442.html

2010-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除