<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>thebigforest的专栏 - lucene</title><link>http://blog.csdn.net/thebigforest/category/334667.aspx</link><description /><dc:language>zh-CN</dc:language><lastUpdateTime>Sun, 21 Oct 2007 09:50:50 GMT</lastUpdateTime><ttl>60</ttl><item><dc:creator>thebigforest</dc:creator><title>Nutch使用汇总</title><link>http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx</link><pubDate>Sun, 21 Oct 2007 09:51:00 GMT</pubDate><guid>http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx</guid><wfw:comment>http://blog.csdn.net/thebigforest/comments/1835336.aspx</wfw:comment><comments>http://blog.csdn.net/thebigforest/archive/2007/10/21/1835336.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/thebigforest/comments/commentRss/1835336.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1835336</trackback:ping><description>网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!

1.Nutch 初体验
很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。
nutch是一个完整的搜索引擎，但是它只是一个搜索引擎他可以订制的东西太少！例如加中文分词好像要改动源文件，这样做对以后的升级维护都是麻烦。
&lt;img src ="http://blog.csdn.net/thebigforest/aggbug/1835336.aspx" width = "1" height = "1" /&gt;</description></item></channel></rss>