Jobo Bug List

想不到Jobo的问题还真多,列举如下:

1、缺省Jobo是用单线程跑的,需要自己扩展实现多线程代码;

2、Jobo里面有个todo和visited列表,分别用于存放待抓取和已访问的task。但是,在多线程模式下,todo里面会出现很多重复的task,也就是visited没有起到过滤重复URL的作用。原因是,虽然task的url可能是重复的,但是task对象的hashcode未必重复,所以往往判断失误。解决方法是自己弄个HashSet来保存已访问的url。

3、Jobo对html的dom解析模块,有内存泄露问题,会OutOfMemory,还是自己解析吧。

4、某些情况下,Jobo碰到redirect的链接可能就抓瞎了。什么情况呢?如果网站是需要带端口号访问的,如http://x.x.x.x:8080/...,这时如果链接发生redirecting,恭喜你,它会把8080丢掉,结果就是重定向后的链接无法访问。这个问题需要修改Jobo底层的HttpTool类才行。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值