win7下在cygwin下安装nutch1.2

最新推荐文章于 2016-10-28 11:27:14 发布

豹先生_MR-BAO

最新推荐文章于 2016-10-28 11:27:14 发布

阅读量1.1k

点赞数

分类专栏： cloudera solr 文章标签：测试 c 存储

本文链接：https://blog.csdn.net/A221133/article/details/6902064

版权

cloudera 同时被 2 个专栏收录

69 篇文章 0 订阅

订阅专栏

solr

23 篇文章 0 订阅

订阅专栏

本文介绍了如何在Windows 7下的Cygwin环境中安装和配置Nutch1.2。首先解压Nutch并将其放置在Cygwin的home目录下，然后在Cygwin终端中执行相关命令进行测试。接着创建urls目录和url.txt文件，设置nutch-site.xml配置文件，修改crawl-urlfilter.txt以允许特定网站爬取。最后通过指定命令运行爬虫并记录日志，以便后续查看爬虫运行情况。

摘要由CSDN通过智能技术生成

将nutch解压缩（.gz后缀，可以直接用winRar解压）后将文件夹nutch-1.2(包含文件夹下所有文件)放置到c:/cygwin/home下(我放在c:/cygwin/home下)；
打开cygwin，在cygwin环境下进入nutch-1.2目录下（cd /cygdrive/c/cygwin/home/nutch-1.2），使用命令 bin/nutch进行测试，正常的情况下出现的结果是：

nutch成功后显示

抓取网站测试，在C:/cygwin/home/nutch-1.2/下新建一个目录urls，在urls下建一个url.txt文件用以保存需要搜索的网站，在文件中输入http://www.163.com，在C:/cygwin/home/nutch-1.2/下新建一个目录logs，在logs目录下新建log1.log文件用以保存日志文件，在C:/cygwin/home/nutch-1.2/目录下新建一个crawled目录
打开C:/cygwin/home/nutch-1.2/conf/nutch-site.xml，按以下示例输入

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>http.agent.name</name>
<value>mynutch</value>
<description>test
</description>
</property>
<property>
<name>http.agent.description</name>
<value>spider</value>
<description> spider
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.xxx.com </value>
<description>http://www.xxx.com
</description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>md.peter@163.com
</description>
</property>
</configuration>

C:/cygwin/home/nutch-1.2/conf/crawl-urlfilter.txt文件，把MY.DOMAIN.NAME字符替换为myurl内的域名（比如我改成了“+^http://([a-z0-9]*/.)*163.com/”，其实更简单点，直接删除MY.DOMAIN.NAME这几个字就可以了，也就是说，只保存+^http://([a-z0-9]*/.)*这几个字就可以了，表示所有http的网站都同意爬行）。
运行爬虫,在Cygwin输入以下命令：

bin/nutch crawl ../urls/url.txt -dir ../crawled -depth 4 -threads 5 -topN 1000 >&logs/log1.log

这里-dir表示存储的目录，-depth表示网址爬的深度，最后是指明日志文件

运行结束后，你可以打开日志文件查看爬虫运行的详细过程。