Python简单爬虫学习

本文介绍了Python爬虫的基础知识,包括爬虫调度器、URL管理器、网页下载器和网页解析器的角色和功能。URL管理器负责URL的存储和管理,网页下载器用于获取网页内容,而网页解析器则用于提取有价值的数据。程序流程始于初始URL,通过循环不断抓取、解析和管理新的URL,直到完成所有待爬取的URL。
摘要由CSDN通过智能技术生成

本文源于慕课网爬虫学习笔记:http://www.imooc.com/learn/563

爬虫:一段自动抓取互联网信息的程序。

主要组成:爬虫调度器,URL管理器,网页下载器,网页解析器

爬虫调度器:程序入口,主要负责爬虫程序的控制

URL管理器:管理带抓取URL集合和已抓取的URL集合。

URL实现的功能有:

1.添加新的URL到待爬去集合

2.判断待添加URL是否已存在

3.判断是否还有待爬的URL,将URL从待爬集合移动到已爬集合

URL的存储方式:Python内存即set()集合,关系数据库,缓存数据库

网页下载器:根据URL获取网页内容,实现由有urllib2和request

网页解析器:从网页中提取出有价值的数据,实现方法有:正则表达式、html.parser、BeautifulSoup、lxml


程序思路:主程序从初始URL开始,先通过URL管理器将初始URL放入待爬集合,再循环从待爬集合中获取URL,使用网页下载器获取URL指向网页,再对网页进行解析获取价值数据和关联URL,关联URL经判断再由URL管理器存入待爬集合,继续进行循环直到复合跳出条件或待爬集合为空。


URL管理器代码:

clas
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值