『爬虫问题解决』(一)nutch异常

Nutch在eclipse中编译的时候出现了异常

InjectorJob: starting at 2015-09-23 10:20:55
InjectorJob: Injecting urlDir: /root/urls
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: java.lang.RuntimeException: job failed: name=[jobTest]inject /root/urls, jobid=job_local2082550065_0001
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
    at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)
    at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
    at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284)

解决方法是:一是,检查conf/nutch-default的plugins,设置成下面的即可

<property>
  <name>plugin.folders</name>
  <value>plugins</value>
<property>

二是,出现这个异常基本是URL过滤配置出现问题
在nutch/conf和nutch/runtime/conf,检查这两个文件夹下的regex-urlfilter.txt,
我出现问题的原因是,种子文件/urls里的网址已经更改了,但URL过滤配置里的正则表达式并没有随之更新。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值