<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>thebigforest的专栏 - Java </title><link>http://blog.csdn.net/thebigforest/category/300041.aspx</link><description /><dc:language>zh-CN</dc:language><lastUpdateTime>Sun, 21 Oct 2007 09:50:50 GMT</lastUpdateTime><ttl>60</ttl><item><dc:creator>thebigforest</dc:creator><title>Nutch使用汇总</title><link>http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx</link><pubDate>Sun, 21 Oct 2007 09:51:00 GMT</pubDate><guid>http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx</guid><wfw:comment>http://blog.csdn.net/thebigforest/comments/1835336.aspx</wfw:comment><comments>http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1835336.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1835336</trackback:ping><description>网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!

1.Nutch 初体验
很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。
nutch是一个完整的搜索引擎，但是它只是一个搜索引擎他可以订制的东西太少！例如加中文分词好像要改动源文件，这样做对以后的升级维护都是麻烦。
&lt;img src ="http://blog.csdn.net/thebigforest/aggbug/1835336.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>thebigforest</dc:creator><title>抓取百度搜索结果——解密百度狗</title><link>http://blog.csdn.net/thebigforest/archive/2007/06/13/1650307.aspx</link><pubDate>Wed, 13 Jun 2007 12:42:00 GMT</pubDate><guid>http://blog.csdn.net/thebigforest/archive/2007/06/13/1650307.aspx</guid><wfw:comment>http://blog.csdn.net/thebigforest/comments/1650307.aspx</wfw:comment><comments>http://blog.csdn.net/thebigforest/archive/2007/06/13/1650307.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1650307.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1650307</trackback:ping><description>网上有很多类似“百度狗” 的元搜索引擎，他们抓取百度和google的搜索结果，然后合并在一个网页里。

且不说这样做有什么意义，但是这的确是一件好玩的事，自己想了一下原理，写了这样一个类，可以抓取百度里的搜索结果。

原理很简单：

通过搜索关键和页码字进入百度，例如“http://www.baidu.com/s?wd=搜索关键字&amp;pn=页码（这里的页码计算公式是：10*（页码-1）） 
找到真正有用的那一行，把信息读出来， 
按照每一个项的特点把他们切开，例如URL前面都有“class=f”…… 
然后存起来 
下面是代码：
&lt;img src ="http://blog.csdn.net/thebigforest/aggbug/1650307.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>thebigforest</dc:creator><title>Java 简单输入类</title><link>http://blog.csdn.net/thebigforest/archive/2007/05/03/1595319.aspx</link><pubDate>Thu, 03 May 2007 10:36:00 GMT</pubDate><guid>http://blog.csdn.net/thebigforest/archive/2007/05/03/1595319.aspx</guid><wfw:comment>http://blog.csdn.net/thebigforest/comments/1595319.aspx</wfw:comment><comments>http://blog.csdn.net/thebigforest/archive/2007/05/03/1595319.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1595319.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1595319</trackback:ping><description>封装了标准的java输入机制，隐藏了异常的管理！

读取基本类性值时可以获取和处理可能出现的异常，如果出现异常则返回一个缺省值，便于防止异常的传播！ 使用它的目的就是给简单程序一个更简单的做法 
&lt;img src ="http://blog.csdn.net/thebigforest/aggbug/1595319.aspx" width = "1" height = "1" /&gt;</description></item></channel></rss>