python 爬虫源代码-python 爬虫-1:下载网页源代码

本文介绍了使用Python内置库urllib2下载网页源代码的基本方法,包括处理异常和添加重试下载功能。通过示例代码展示了如何在遇到HTTP错误时进行重试,以应对网络不稳定的情况。最后,预告了后续将加入代理、下载延时以及实现链接爬虫等功能,并以爬取特定网站的图片为例进行实战练习。
摘要由CSDN通过智能技术生成

参考书籍:《用 Python 写网络爬虫》

当然你也可以自己百度搜索下载。

一点感想

书看一遍是不够的,温故而知新。

下载一个网页源代码

最简单的形式

使用的是 python 自带的库 urllib2

import urllib2

def download(url):

print "downloading " , url

html = urllib2.urlopen(url).read()

return html

给定想要下载的 URL 即可下载其源代码。

添加处理异常的功能

当然很有可能在下载的过程中出现各种问题,导致出现问题,所以需要在上面的程序上扩展,处理异常的情况。

import urllib2

def download(url):

print "downloading " , url

try:

html = urllib2.urlopen(url).read()

except urllib2.URLErrors as e:

print "download error: " , e.reason

html = None

return html

完整的程序如下:

# _*_ encoding:utf-8 _*_

'''

Created on 2017年8月4日

@author: wangs0622

'''

import urllib2

def download(url):

print "downloading " , url</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值