nutch研究记录1（爬虫配置）

最新推荐文章于 2021-03-24 16:07:49 发布

iteye_20816

最新推荐文章于 2021-03-24 16:07:49 发布

阅读量79

点赞数

分类专栏：搜索引擎文章标签： Java Eclipse Tomcat Google Windows

搜索引擎专栏收录该内容

8 篇文章 0 订阅

订阅专栏

工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说，其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤，日后需要时候也可以翻翻。

nutch分为爬虫和搜索器
   1.   爬虫配置。
   a)   Nutch下载解压后（E:\java\CoreJava\IndexSearchAbout\nutch-1.0）
   b)   创建crawled（存储爬取数据，包括索引）、urls/url.txt目录（里边的文本用来存储所需要爬取的网站url，每个url独立一行）

http://biaowen.iteye.com/

c) 修改配置文件conf/nutch-site.xml

<property>
		<name>http.agent.name</name>
		<value>b-crawler</value>
	</property>
	<property>
		<name>http.agent.version</name>
		<value>1.0</value>
</property>

d) Conf/crawl-urlfilter.txt里边些爬取规则，与urls/url.txt是对应的，比如url.txt里边有http://biaowen.iteye.com/,则crawl-urlfilter.txt需要添加相应规则

# accept hosts in MY.DOMAIN.NAME
+^http://biaowen.iteye.com/

   e)   配置就完成了，如果没有意外应该可以正常爬取
           1).   打开cygwin
           2).   cd /cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0
           3).   bin/nutch crawl urls/url.txt -dir crawled -depth 3 -threads 4
                   -dir(爬取数据存储目录) -depth(深度) - threads(线程，默认10) –topN(每个深度爬取前几个页面)

要特别需要注意一下，在爬取时候尽量保证进程里没有java.exe进程，要不你会产生很多莫名其妙的错误。因为有可能该java.exe正在操作nutch索引文件，当前爬取任务操作不了就会报错，当然了，如果你确定该java.exe进程不锁定索引文件，那就没有问题，自己体会吧。

iteye_20816

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch研究记录1（爬虫配置）

工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说，其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤，日后需要时候也可以翻翻。nutch分为爬虫和搜索器 1. 爬虫配置。 a) Nutch下载解压后（E:\java\CoreJava\IndexSearchAbo...
复制链接

扫一扫