python 爬虫源代码-python 爬虫-1：下载网页源代码

最新推荐文章于 2024-09-06 13:18:41 发布

weixin_37988176

最新推荐文章于 2024-09-06 13:18:41 发布

阅读量1.2k

点赞数

本文介绍了使用Python内置库urllib2下载网页源代码的基本方法，包括处理异常和添加重试下载功能。通过示例代码展示了如何在遇到HTTP错误时进行重试，以应对网络不稳定的情况。最后，预告了后续将加入代理、下载延时以及实现链接爬虫等功能，并以爬取特定网站的图片为例进行实战练习。

摘要由CSDN通过智能技术生成

参考书籍：《用 Python 写网络爬虫》

当然你也可以自己百度搜索下载。

一点感想

书看一遍是不够的，温故而知新。

下载一个网页源代码

最简单的形式

使用的是 python 自带的库 urllib2

import urllib2

def download(url):

print "downloading " , url

html = urllib2.urlopen(url).read()

return html

给定想要下载的 URL 即可下载其源代码。

添加处理异常的功能

当然很有可能在下载的过程中出现各种问题，导致出现问题，所以需要在上面的程序上扩展，处理异常的情况。

import urllib2

def download(url):

print "downloading " , url

try:

html = urllib2.urlopen(url).read()

except urllib2.URLErrors as e:

print "download error: " , e.reason

html = None

return html

完整的程序如下：

# _*_ encoding:utf-8 _*_

'''

Created on 2017年8月4日

@author: wangs0622

'''

import urllib2

def download(url):

print "downloading " , url</

最低0.47元/天解锁文章

weixin_37988176

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。