nutch检索
lovepoem
https://wangxin.io/
展开
-
使用nutch检索的历程
最近开始做一个项目的搜索引擎,技术选型为爬虫nutch。开始以为除了cms系统发布的静态页面以外,还有数据库存储的结构化数据需要索引(其实这些用页面是用jsp展示的,在系统中已经有了)。所以用爬虫爬完网站后,就想着再把结构化的数据通lucene的api写进nutch的索引中,最后通过多次尝试发现很难实现。虽然能将lucene建立的索引追加进到nutch的索引中,可是却很难读出来(有一款lu...2011-04-25 13:47:54 · 104 阅读 · 0 评论 -
[转]nutch1.2断电或者断网后继续爬取的方式
最近用nutch抓取了几个g的数据,爬了两天了。中途要断电,网上找到别人的断点继续爬取的方式,解决了问题。 nutch抓取过程是分阶段的,每个阶段完成后都会写到文件中。附nutch抓取的阶段: (injector) ->generator -> fetcher -> crawldb updater -> linkdb updater -> indexer -&...原创 2011-05-12 16:04:05 · 184 阅读 · 0 评论 -
nutch1.2爬虫在eclipse下运行遇到的问题
最近在研究nutch,将爬虫的源码导入eclipse。参照apache的一个wiki进行了配置。 http://wiki.apache.org/nutch/RunNutchInEclipse1.0 可是运行起单元测试起来会报出异常: 2011-05-27 11:15:46,747 WARN regex.RegexURLNormalizer (Rege...2011-05-27 11:22:13 · 155 阅读 · 0 评论