Nutch
文章平均质量分 78
lskyne
这个作者很懒,什么都没留下…
展开
-
Nutch的命令详解
Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl [-dir d] [-threads n] [-de转载 2013-07-14 17:08:28 · 1071 阅读 · 0 评论 -
Nutch学习笔记二
1,对Nutch抓取的数据块分析 nutch readseg –dump crawl/segments/20070516154114 segdb 这样会产生一个 dump 文件,这是一次抓取循环的结果,如果要查看其他 文件夹下抓取的结果,只要更改最后那个以时间命名的文件夹就可以了原创 2013-07-14 17:07:33 · 20321 阅读 · 2 评论 -
Nutch学习笔记三
Nutch抓取网页步骤 1,新建url列表 http://www.qq.com/ http://www.sina.com.cn/ 2,将种子列表URL导入Nutch的crawldb hadoop@slave5:~/nutch$ nutch inject crawl/crawldb urls/ Injector: starting at 2013-07-14 17:19:07 Inje原创 2013-07-14 18:21:39 · 2956 阅读 · 0 评论 -
关于solr schema.xml 和solrconfig.xml的解释
一、字段配置(schema) schema.xml位于solr/conf/目录下,类似于数据表配置文件, 定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。 1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。 name:就是这个Fi转载 2013-07-16 09:25:08 · 1200 阅读 · 0 评论 -
Nutch学习与安装
1,apache nutch 官方说明: Apache的Nutch是一个开源Java编写的网络爬虫。通过它,我们可以自动的抓取网络上的链接,减少大量的维护工作,比如:检查环链,死链,并且把抓取到的网页存到硬盘上,这也是引入Apache Solr的原因。Solr是一个开源的全文搜索框架,在Solr中,我们可以搜索Nutch抓取下来的网页。幸运的是, Nutch和Solr中之间的整合是非常简单的。原创 2013-07-05 16:36:37 · 9397 阅读 · 3 评论