![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫和搜索
文章平均质量分 82
iterjpnic
这个作者很懒,什么都没留下…
展开
-
Solrj3.4的使用
前言 其实Solr3.4提供基于restful接口的服务,所以client使用任何语言都可以,但用client的访问方式可以提升开发效率。Solr官方推荐的客户端是Java写的solrj3.4和solr包中自带的ruby写的solr-ruby客户端。Solr-ruby的完善性我没查,直接用了solrj3.4。solrj的文档并不多,且很碎(solrj跟solr的文档都在http://wiki.a原创 2012-05-05 11:19:31 · 1424 阅读 · 0 评论 -
nutch 1.4 的增量爬取(recrawl)脚本
前言 先来一条最新消息: nutch 1.5发布了! 直接上到tika1.1和hadoop1.0,这下有得继续玩儿了。 不过刚看了一下,即使nutch发布到1.5,但默认还是没有提供增量爬的脚本。nutch的官方wiki上有Susam Pal写的recrawl脚本(http://wiki.apache.org/nutch/Crawl),但是那个脚本不能拿来直接用,因为: ta只能用在原创 2012-06-08 11:24:03 · 4744 阅读 · 6 评论