爬虫主要流程

本文介绍了Python爬虫的主要流程,包括调度器管理其他模块、URL管理器存储有用URL、网页下载器使用urllib2下载HTML源代码、解析器利用BeautifulSoup解析网页并抓取所需信息,最终将数据写入文件。
摘要由CSDN通过智能技术生成

爬虫主要流程


调度器

  • 主调度程序主要是管理上图中其余几个模块的,然后循环的执行这几个模块进行爬取信息,直到条件达到(爬取够一定数量)跳出循环。

URL管理器

  • 每爬取一个网页的有用信息后,并把有用的URL爬取下来放入URL管理器中,等下次循环的爬取可以直接从这个管理器中获取URL

网页下载器

  • 这里用到下载网页的库是urllib2,通过库把url指定的网页的html源代码下载下来,存入urllib2对象
  • 以下是几种简单的下载网页方式 

  • 代码演示

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值