搜索引擎
gavinlau123
这个作者很懒,什么都没留下…
展开
-
Run Nutch In Eclipse on Linux and Windows nutch version 1.0
参考官方文档,通过努力终于我nutch在eclispe下跑通了:),真的很好,很详细,不知道自己有没耐心些这样的文章:) This is a work in progress. If you find errors or would like to improve this page, just create an account [UserPreferences] and start ed...原创 2009-09-16 21:12:48 · 114 阅读 · 0 评论 -
hadoop的eclipse开发豪华文章
hadoop的eclipse开发豪华文章:http://ebiquity.umbc.edu/Tutorials/Hadoop/00%20-%20Intro.html2009-09-28 21:57:35 · 76 阅读 · 0 评论 -
Hadoop分析
好链接:http://www.kuqin.com/system-analysis/20080804/13302.html 原文地址:http://www.wangchao.net.cn/bbsdetail_490384.html Hadoop 是 Google labs 的MapReduce的一个实现,Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布...原创 2009-09-27 10:10:15 · 97 阅读 · 0 评论 -
Nutch1.0 Crawl整体代码分析
[img]http://dl.iteye.com/upload/attachment/151051/4d80cf30-28d0-3485-be82-3dfa3bf9d20a.png[/img] ================================================================ Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个...2009-09-27 09:02:56 · 123 阅读 · 0 评论 -
Nutch插件机制
Plugin插件机制为Nutch提供了很强大的扩展性,曾经看到一篇文章《不选择使用Lucene的6大原因》,其中就提到lucene的API不够开放。Lucene的OO设计的非常糟,尽管有包package和类class,但是Lucene的设计基本上没有设计模式的身影。这是不是c或者c++程序员写java程序的通病?Lucene中没有使用接口Interface,等等。在Lucene的2.0版本中就解决...原创 2009-09-26 20:41:59 · 94 阅读 · 0 评论 -
nutch防止中文乱码
原创 2009-09-19 13:59:10 · 105 阅读 · 0 评论 -
Nutch中MapReduce的分析
作者:马士华 发表于:2008-03-06 20:11 最后更新于:2008-03-07 12:44 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。 http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/ -------------------------------------------------------...原创 2009-09-17 21:42:38 · 60 阅读 · 0 评论 -
Nutch1.0源码分析-----抓取部分
链接地址:http://blog.csdn.net/ninjuli/archive/2009/05/11/4168477.aspx原创 2009-09-17 21:33:55 · 73 阅读 · 0 评论 -
nutch1.0各种命令
nutch.job 文件的使用: hadoop jar nutch-1.0.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1 局域网抓取 bin/nutch crawl urls -dir 20090519 -depth 1 -topN 50 -threads 2 >& nutch.log 互联网抓取命令(...原创 2009-09-17 20:53:46 · 98 阅读 · 0 评论 -
常用网址
吴楚狂生 nutch 总结:http://blog.csdn.net/kauu/category/256676.aspx nhy520 有54篇文章:)http://nhy520.iteye.com/category/64782 一个nutch博客:)http://blog.neu.edu.cn/smallgoldstone/?tag=nutch http://www.lucidimagin...2009-09-16 22:08:46 · 101 阅读 · 0 评论 -
Nutch插件机制和Nutch一个插件实例
通过这篇文章:),终于懂得了nutch插件啦:),Thanks to the author and the internet! plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。 为什么nutch要使用这样的plugin系统? 有三个原因: 1:可扩展性 ...原创 2009-09-16 21:20:24 · 83 阅读 · 0 评论 -
如何做好垂直搜索
垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可*性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的...原创 2009-10-03 20:28:58 · 167 阅读 · 0 评论