基于Python的网络爬虫

一个爬虫的架构包括URL管理器,网页下载器,和网页解析器,管理待抓取的URL集合和已抓取URL集合,这样是为了防止重复抓取和循环抓取。


网页下载器

将互联网上URL对应的网页下载到本地的工具。

网页解析器

将下载的网页按照某种网页形式进行解析,找到需要的内容。

算法

一共创建4个类,url_manager,html_downloader,html_parser,spider_main。主类中构造函数创建其他三个类的对象。

在主类的爬取函数中,首先完成网页的下载和解析,并将解析的符合要求的URL添加到待爬取URL集合中。

html_downloader类只有一个方法,即用来下载网页。

html_parser类,包含一个私有方法,用来寻找课程的链接网址。

url_manager类中,设置两个存放URL的集合,一个作为待爬取的URL集合,一个作为已爬取的URL集合,若仍存在待爬取的URL,在获取该URL的同时,将其从待爬取集合中删除,添加到已爬取集合,防止重复爬取。get_text()方法可以获取标签中的文本内容。

代码如下:<

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值