参考书籍:《用 Python 写网络爬虫》
当然你也可以自己百度搜索下载。
一点感想
书看一遍是不够的,温故而知新。
下载一个网页源代码
最简单的形式
使用的是 python 自带的库 urllib2
import urllib2
def download(url):
print "downloading " , url
html = urllib2.urlopen(url).read()
return html
给定想要下载的 URL 即可下载其源代码。
添加处理异常的功能
当然很有可能在下载的过程中出现各种问题,导致出现问题,所以需要在上面的程序上扩展,处理异常的情况。
import urllib2
def download(url):
print "downloading " , url
try:
html = urllib2.urlopen(url).read()
except urllib2.URLErrors as e:
print "download error: " , e.reason
html = None
return html
完整的程序如下:
# _*_ encoding:utf-8 _*_
'''
Created on 2017年8月4日
@author: wangs0622
'''
import urllib2
def download(url):
print "downloading " , url</