Now . Or Never ``

if you stay , you will always here.

<br />每个人都梦想着成功,恰巧,我也作为人类的一员。<br />程序员都希望能涅槃重生,恰巧,我也作为编程者之一。<br />走入这个行业,其实也很靠缘分的。毕竟, 自己没有做别的行业。或者,自己做不了别的行业?不善于欺骗的人,才能做逻辑,正直的程序员吧。...

2010-06-17 19:21:00

阅读数:619

评论数:0

Nutch1.0 crawl分析(转)

<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字: nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /...

2010-06-22 11:54:00

阅读数:605

评论数:0

Nutch1.0 crawl分析(转)

<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字: nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /...

2010-06-22 11:53:00

阅读数:440

评论数:0

Nutch1.0 crawl分析(转)

<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字: nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /...

2010-06-22 11:53:00

阅读数:489

评论数:0

Nutch1.0 日志分析(转)

<br /><br />Hadoop集群创建文件<br />[nutch@gc01vm13 /]$ cd ./home/nutch/nutchinstall/nutch-1.0/<br />[nutch@gc01vm13 nutch-1.0]$...

2010-06-22 09:20:00

阅读数:1181

评论数:0

在Eclipse下配置nutch1.0 及1.1

<br /><1>: 首先从http://apache.etoak.com/lucene/nutch/  下载最新的nutch.在这里我使用的是nutch1.0.<br /><2>: 在eclipse中新建立一个Java Project. 名字自己定...

2010-06-21 11:07:00

阅读数:1345

评论数:0

爬虫crawler和查询searcher

<br /><br />Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦...

2010-06-01 23:22:00

阅读数:555

评论数:0

Nutch 1.0 Fetcher 抓取模型解析

<br /><br />1. 介绍<br />2. 抓取流程分析<br />3. 结束<br />---------------<br />1. 介绍<br />   Nutch是apache Lucene的一个子...

2010-06-01 23:15:00

阅读数:1107

评论数:0

搜索引擎的原理简介

<br /><br />一、搜索引擎的原理简介<br />1.一个抓网络页面程序<br />  把www中的各网站的内容抓到本地<br />2.一个文件解析工具<br />  把抓下来的html、doc等源文件处理为更精确的格...

2010-06-01 23:12:00

阅读数:440

评论数:0

解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题

<br /><br />主题:解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题<br /><br />主要内容<br />一、Lucene的索引机制与索引文件结构<br />二、Nutch的爬...

2010-06-01 23:10:00

阅读数:502

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭