运行调试nutch的问题处理及注意事项

最新推荐文章于 2018-03-21 18:27:57 发布

ATCO

最新推荐文章于 2018-03-21 18:27:57 发布

阅读量3k

点赞数 1

分类专栏： nutch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/atco/article/details/8150142

版权

nutch 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

导入nutch项目时其conf文件下的所有配置文件需要加入到classPath中

右键conf――>Build PathàUse as Source Folder

在运行时如发生异常：x point org.apache.nutch.net.URLNormalizer not found.

注：这是配置造成的，是插件目录的配置没有正确，修改conf/nutch-default.xml文件
<property>
<name>plugin.folders</name>
<value>./src/plugin</value><!—修改部分-->
...

在运行时如发生异常：Fetcher: No agents listed in 'http.agent.name' property.

检查conf配置目录中的nutch-default.xml和nutch-site.xml文件中是否存在键：http.agent.name，
或存在键：http.agent.name，但其值为空，一定要定义此键值，值可以任意,自已想名字吧。如：
<property>
<name>http.agent.name</name>
<value>nutch16</value>
</property>

//添加想抓取的URL

1、建立待扫描的文件夹，然后在其中新建一个文件(文件名不限)，在该文件中写入想抓取的网站URL，每行一个，如：http://www.163.com/

2、conf/crawl-urlfilter.txt

#accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/ ---写入想抓取的网站正则表达式

然后即可在eclipse中进行调试或使用nutch进行爬行

进入nutch目录

$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topN 50

crawl：通知nutch.jar，执行crawl的main方法。

urls：存放需要爬行的url.txt文件的目录

-dir mydir 爬行后文件保存的位置

-depth 2：爬行次数，或者成为深度，不过还是觉得次数更贴切，建议测试时改为1。

-threads 指定并发的进程这是设定为 4
-topN 50：一个网站保存的最大页面数。

注意爬网的时候mydir目录不能存在，要不然会出错

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄21年

82
原创

146
点赞

375
收藏

190
粉丝

关注

私信

热门文章

分类专栏

最新评论

CentOS7上安装Squid代理详细教程
weixin_45271405: 默认安装会存在大量漏洞，需要进行升级
LINUX 安装JAVA
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
Linux部署bitcoin core（核心钱包）
hackferances: 希望博主有方法解决
Linux部署bitcoin core（核心钱包）
hackferances: 到了第3步，我输入[code=plain] systemctl status bitcoind.service [/code]却报错了以下内容： [code=plain] Job for bitcoind.service failed because the control process exited with error code. See "systemctl status bitcoind.service" and "journalctl -xe" for details. [/code]我输入了这两个命令，输出结果分别是： [code=plain] bitcoind.service - Bitcoin deamon service Loaded: loaded (/etc/systemd/system/bitcoind.service;enabled; vendor pres> Active: activating (auto-restart) (Result: exit-code) since Sun 2024-03-10> Process: 5255 ExecStart=/wallet/bitcoin/bitcoin-0.18.1/bin/bitcoind -daemon [/code] 和 [code=plain] -- The job identifier is 6591. 3月 10 15:57:48 ubuntu systemd[5317]: bitcoind.service: Failed to execute comma> 3月 10 15:57:48 ubuntu systemd[5317]: bitcoind.service: Failed at step EXEC spa> -- Subject: Process /wallet/bitcoin/bitcoin-0.18.1/bin/bitcoind could not be ex> -- Defined-By: systemd -- Support: http://www.ubuntu.com/support -- -- The process /wallet/bitcoin/bitcoin-0.18.1/bin/bitcoind c [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。