- 博客(2)
- 收藏
- 关注
原创 Python进行数据爬取
1.基本的爬虫架构主要包括调度器,URL管理器,网页下载器,网页解析器这些部分,实现价值数据的获取。1.1 URL管理器 对待抓取的URL集合和已抓取的URL集合进行管理,避免重复抓取和循环抓取。 主要有5个部分的功能,判断待添加URL是否在容器中、添加新的URL到待爬取集合、判断是否还有待爬取集合、获取待爬取URL、将URL从待爬取的集合移动到已爬取集合中。 分类:P...
2018-03-09 11:46:36 10072 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人