在笔记(2)、笔记(3)里,我们对webmagic的eclipse开发环境进行了配置并完成了第一个小爬虫的编写,以上算是对webmagic进行了一次感性的认识。从本篇博文开始,开始学习webmagic的实现细节。
一下内容是我在使用了webmagic进行一些小爬虫编写的基础上的一些自己的认识,很大一部分受官方的使用手册影响。说白了,就是自己在理解的基础上重新打了一遍。
首先,祭出总体架构图。
从图中很明显看出webmagic的四大组件:PageProcessor、Pipeline、Downloader、Scheduler。
1.PageProcessor
对于像我这样的小白来说PageProcessor是实现整个爬虫的需要自己编写的核心代码 。PageProcessor负责解析页面,并根据自己的需求抽取有用信息(包括新的链接)。如果是简单的爬虫,只需要自己定制这一部分即可。2.Pipeline
Pipeline负责了抽取结果的处理。比如你想把