Python爬虫设计思路 一、爬虫架构 爬虫调度端:一般指的入口函数,发起动作的入口。URL管理器:存放待爬取网站的URL和已爬取过的URL的功能(python内存、关系数据库、缓存数据库)。网页下载器:进行页面爬取的功能(Requests、urllib2)。网页解析器:对爬取下来的数据进行清洗(BeautifulSoup)。价值数据:存放意向数据。 二、运行流程 三、分析目标