linux nutch1.0安装配置

最新推荐文章于 2024-07-19 17:37:28 发布

iteye_2186

最新推荐文章于 2024-07-19 17:37:28 发布

阅读量97

点赞数

分类专栏： nutch 文章标签： java 操作系统开发工具

本文链接：https://blog.csdn.net/iteye_2186/article/details/82480370

版权

nutch 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1，下载nutch1.0

下载地址：http://archive.apache.org/dist/nutch/，下载这个文件nutch-1.0.tar.gz

2，上传到服务器

上传位置：/home/www/，解压nutch-1.0.tar.gz

#tar -xvf nutch-1.0.tar.gz

重命名

#mv nutch-1.0 nutch

3，修改配置文件

在/home/www/nutch目录下新建urls

#mkdir urls

进入url目录

#cd urls

新建seed.txt文件，写入要抓去的网站地址

#touch seed.txt

#vim seed.txt

往seed.txt文件中写入http://www.163.com

修改配置文件

vim /home/www/nutch/conf/crawl-urlfilter.txt

vim /home/www/nutch/conf/regex-urlfilter.txt

把上面两个文件末尾+都改成+^http://([a-z0-9]*\.)*163.com

4，发布到tomcat

tomcat安装在/usr/local/tomcat位置

把/home/www/nutch/nutch-1.0.war拷贝到tomcat目录的webapps下

#cp /home/www/nutch/nutch-1.0.war /usr/local/tomcat/webapps

启动tomcat

#/usr/local/tomcat/bin/start.sh

修改tomcat中项目的配置文件

#vim /usr/local/tomcat/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml

改成以下代码

<configuration>
<property>
        <name>http.agent.name</name>
        <value>nutch-1.0</value>
</property>
<property>
        <name>searcher.dir</name>
        <value>/home/www/nutch/crawl</value>
</property>
</configuration>

注意这个地方的http.agent.name，网上的很多安装配置都没写这个，没写这个在最后一步找不到结果的。

修改完以上文件后，重启tomcat

5，抓取网页数据

进入nutch根目录

#cd /home/www/nutch

执行抓取命令

#bin/nutch crawl urls -dir crawl -depth 3 -topN 5

urls：是之前建立的urls抓取网页的文件地址

第二个crawl：是抓取到的内容索引文件存放的位置

depth：要抓取网站顶级网址为起点的爬行深度

threads：指定并发的线程数

topN：一个网站保存的最大页面数

抓取网页的时候，一定要注意想要的网站能ping通，如果不能ping通的话，在/etc/resolv.conf文件中加入以下内容：

nameserver 202.106.0.20

6，搜索内容

打开http://192.168.1.99:8080/nutch-1.0/search.jsp，输入相关内容搜索即可，得到以下页面。

看到这个就大功告成了。

iteye_2186

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux nutch1.0安装配置

1，下载nutch1.0下载地址：http://archive.apache.org/dist/nutch/，下载这个文件nutch-1.0.tar.gz 2，上传到服务器上传位置：/home/www/，解压nutch-1.0.tar.gz#tar -xvf nutch-1.0.tar.gz重命名#mv nutch-1.0 nutch 3，修改配置文件在...
复制链接

扫一扫