本文是针对慕课网关于python爬虫课程的总结记录!
1、简介
一个完整的爬虫架构包括:调度程序、url管理器、网页下载器、网页解析器。
调度程序:即爬虫的主函数
url管理器:url管理的功能就是管理未爬取的url和已经爬取的url,常见的实现方式有:内存(使用python的set实现)、关系数据库、缓存数据库(菲关系型数据库,如redis)
网页下载器:将互联网上的url对应的网页下载到本地的工具,以便后续分析处理。常见的网页下载器:urllib2(官方)、request(第三方)
网页解析器:网页内容下载之后需要解析之后才能判断里面是否存在我们需要的内容,那么网页解析器就是完成这个功能的。常见的网页解析器的实现方式有:正则表达式、html.parser(官方)、beautifulSoup(第三方插件,强大),lxml
2、实战代码
本节给出课程中对百度百科中与python词条相关的1000个词条(IDE为eclipse下的PyDev)
2.1 调度程序