JSpider学习七——调试SpiderImpl的crawl

    从main的第一句,走到最后,进入JSpider的start方法中,调用SpiderImpl的crawl。

    前面对crawl做了分析,这里不重复流水了。context.getEventDispatcher().dispatch(new SpideringStartedEvent(context.getBaseURL()))将Spider开启事件派发出去,然后进入context.getAgent().start()方法看看究竟这里的agent干点什么。

    ————于是进入到AgentImpl的visit方法中。这里判断参数中的链接是否已经在数据库当中,没有则加入,并在context中注册,其实就是把Site类型转成了SiteInternal类型,并且在spiderRulesparserRules里面加了对应规则(一个Ruleset对象)。加入后通过eventDispatcher.dispatch(new SiteDiscoveredEvent(site))派发一个找到新网站的事件,这里的eventDispatcher与context.getEventDispatcher()是同一个对象,以后也都应该通过这个eventDispatcher派发全局事件吧。

    ————然后的事情涉及到一个robotsTXT文件,scheduler.schedule(new FetchRobotsTXTTaskImpl(context, robotsTXTUrl, site)),将获取该文件的工作进行了时间安排。如果是新的资源,则scheduler.block(siteURL, new DecideOnSpideringTask(context, new URLFoundEvent(context, url, foundURL))),即对与还没有解释robotsTXT之前,新建并同时阻塞对该网站的DecideOnSpidering任务。

    ————之后还有加入新资源处理,eventDispatcher.dispatch(new ResourceDiscoveredEvent(storage.getResourceDAO().getResource(foundURL)))来派发新资源发现事件。

    回到crawl,通过spiders.assignGroupTask(dispatchSpiderTask)和thinkers.assignGroupTask(dispatchThinkerTask)为spiders和thinkers的dispatcherThread分配了任务。然后dispatchSpiderTask.wait()等待spidering过程的结束。spidering结束后,通过spiders.stopAll()thinkers.stopAll()停止所有的工作。记录SpideringSummarySpideringStoppedEvent事件,最后context.getEventDispatcher().shutdown()关闭全局的事件派发器。

    main方法就这样执行完了。


    下一步的任务是分析任务执行的代码,还是通过调试看吧。


    

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值