网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!
1.Nutch 初体验
很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。
nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。
阅读全文>
发表于 @ 2007年10月21日 09:51:00|评论(loading...)|编辑|收藏
网上有很多类似“百度狗” 的元搜索引擎,他们抓取百度和google的搜索结果,然后合并在一个网页里。
且不说这样做有什么意义,但是这的确是一件好玩的事,自己想了一下原理,写了这样一个类,可以抓取百度里的搜索结果。
原理很简单:
通过搜索关键和页码字进入百度,例如“http://www.baidu.com/s?wd=搜索关键字&pn=页码(这里的页码计算公式是:10*(页码-1))
找到真正有用的那一行,把信息读出来,
按照每一个项的特点把他们切开,例如URL前面都有“class=f”……
然后存起来
下面是代码:
阅读全文>
发表于 @ 2007年06月13日 12:42:00|评论(loading...)|编辑|收藏
封装了标准的java输入机制,隐藏了异常的管理!
读取基本类性值时可以获取和处理可能出现的异常,如果出现异常则返回一个缺省值,便于防止异常的传播! 使用它的目的就是给简单程序一个更简单的做法
阅读全文>
发表于 @ 2007年05月03日 10:36:00|评论(loading...)|编辑|收藏