- 博客(10)
- 资源 (8)
- 收藏
- 关注
原创 路
<br />每个人都梦想着成功,恰巧,我也作为人类的一员。<br />程序员都希望能涅槃重生,恰巧,我也作为编程者之一。<br />走入这个行业,其实也很靠缘分的。毕竟, 自己没有做别的行业。或者,自己做不了别的行业?不善于欺骗的人,才能做逻辑,正直的程序员吧。<br />但是,程序员有太多,太多。<br />我所见到的几个貌似牛人。都是在三十出头的时候,会很多的语言。c c++ c# Delphi java 等等等等,基本都是这样,多面手,什么都能做,而在一门上,会比较精通。那么,我26, 又怎么才能在
2010-06-17 19:21:00 808
转载 Nutch1.0 crawl分析(转)
<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /> <br />================================================================ <br />Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在
2010-06-22 11:54:00 731
转载 Nutch1.0 crawl分析(转)
<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /> <br />================================================================ <br />Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在
2010-06-22 11:53:00 575
转载 Nutch1.0 crawl分析(转)
<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /> <br />================================================================ <br />Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在
2010-06-22 11:53:00 610
转载 Nutch1.0 日志分析(转)
<br /><br />Hadoop集群创建文件<br />[nutch@gc01vm13 /]$ cd ./home/nutch/nutchinstall/nutch-1.0/<br />[nutch@gc01vm13 nutch-1.0]$ bin/hadoop fs -ls<br />Found 1 items<br />drwxr-xr-x - nutch supergroup 0 2010-06-09 20:10 /user/nutch/zklin<br />[nutc
2010-06-22 09:20:00 1375
转载 在Eclipse下配置nutch1.0 及1.1
<br /><1>: 首先从http://apache.etoak.com/lucene/nutch/ 下载最新的nutch.在这里我使用的是nutch1.0.<br /><2>: 在eclipse中新建立一个Java Project. 名字自己定义(Nutch). 选择"Create project from existing source",指向自己nutch-1.0的目录.<br /><3>: 点击下一步,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择
2010-06-21 11:07:00 1471
原创 爬虫crawler和查询searcher
<br /><br />Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。<br /> <br />Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。<br />爬虫,Craw
2010-06-01 23:22:00 777
转载 Nutch 1.0 Fetcher 抓取模型解析
<br /><br />1. 介绍<br />2. 抓取流程分析<br />3. 结束<br />---------------<br />1. 介绍<br /> Nutch是apache Lucene的一个子项目,它主要用来进行网页数据的收集和索引。它用结合apache的Hadoop和Lucene等子项目。Nutch的一般抓取流程如下:<br /> 1. 把初始网址inject到crawlDb中进行准备抓取<br /> 2. 用generate模块对crawlDb中的网址进行过滤<br />
2010-06-01 23:15:00 1258
转载 搜索引擎的原理简介
<br /><br />一、搜索引擎的原理简介<br />1.一个抓网络页面程序<br /> 把www中的各网站的内容抓到本地<br />2.一个文件解析工具<br /> 把抓下来的html、doc等源文件处理为更精确的格式文本<br />3.一个全文检索、分词、数据挖掘,解析文本,把数据抓到结构化数据库中<br /> 可以采取工具软件,未必要自己写。数据库可以是文件数据库。<br />4.开发一个搜索页面,从数据库里查询关键字<br /> 对查询关键字,进行一些逻辑处理。然后返回名称和url到页面
2010-06-01 23:12:00 611
转载 解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题
<br /><br />主题:解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题<br /><br />主要内容<br />一、Lucene的索引机制与索引文件结构<br />二、Nutch的爬虫分析与文件结构分析<br />三、Nutch segments的拆分索引实现方案<br /><br />一、Lucene的索引机制与索引文件结构<br />1、Lucene的索引机制<br />2、Lucene文件格式<br />_0.f0,_0.f1 文档文件<br /
2010-06-01 23:10:00 673
js表單驗證大全 正則。。。
2010-04-14
JavaScript-js宝典笔学习记.txt
2010-04-14
JQuery1.3笔记.txt
2010-04-14
java2实用教程电子书
2010-04-13
jQuery技巧大放送
2010-04-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人