JSpider学习七——调试SpiderImpl的crawl

最新推荐文章于 2024-08-15 01:26:58 发布

Oswin

最新推荐文章于 2024-08-15 01:26:58 发布

阅读量949

点赞数

分类专栏： JSpider Java 文章标签：任务工作数据库 url

本文链接：https://blog.csdn.net/oswin/article/details/7388664

版权

JSpider 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Java

8 篇文章 0 订阅

订阅专栏

从main的第一句，走到最后，进入JSpider的start方法中，调用SpiderImpl的crawl。

前面对crawl做了分析，这里不重复流水了。context.getEventDispatcher().dispatch(new SpideringStartedEvent(context.getBaseURL()))将Spider开启事件派发出去，然后进入context.getAgent().start()方法看看究竟这里的agent干点什么。

————于是进入到AgentImpl的visit方法中。这里判断参数中的链接是否已经在数据库当中，没有则加入，并在context中注册，其实就是把Site类型转成了SiteInternal类型，并且在spiderRules和parserRules里面加了对应规则（一个Ruleset对象）。加入后通过eventDispatcher.dispatch(new SiteDiscoveredEvent(site))派发一个找到新网站的事件，这里的eventDispatcher与context.getEventDispatcher()是同一个对象，以后也都应该通过这个eventDispatcher派发全局事件吧。

————然后的事情涉及到一个robotsTXT文件，scheduler.schedule(new FetchRobotsTXTTaskImpl(context, robotsTXTUrl, site))，将获取该文件的工作进行了时间安排。如果是新的资源，则scheduler.block(siteURL, new DecideOnSpideringTask(context, new URLFoundEvent(context, url, foundURL)))，即对与还没有解释robotsTXT之前，新建并同时阻塞对该网站的DecideOnSpidering任务。

————之后还有加入新资源处理，eventDispatcher.dispatch(new ResourceDiscoveredEvent(storage.getResourceDAO().getResource(foundURL)))来派发新资源发现事件。

回到crawl，通过spiders.assignGroupTask(dispatchSpiderTask)和thinkers.assignGroupTask(dispatchThinkerTask)为spiders和thinkers的dispatcherThread分配了任务。然后dispatchSpiderTask.wait()等待spidering过程的结束。spidering结束后，通过spiders.stopAll()和thinkers.stopAll()停止所有的工作。记录SpideringSummary和SpideringStoppedEvent事件，最后context.getEventDispatcher().shutdown()关闭全局的事件派发器。

main方法就这样执行完了。

下一步的任务是分析任务执行的代码，还是通过调试看吧。

Oswin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
JSpider学习七——调试SpiderImpl的crawl

从main的第一句，走到最后，进入JSpider的start方法中，调用SpiderImpl的crawl。前面对crawl做了分析，这里不重复流水了。context.getEventDispatcher().dispatch(new SpideringStartedEvent(context.getBaseURL()))将Spider开启事件派发出去，然后进入context.getAg
复制链接

扫一扫

专栏目录