python爬虫(数据下载)
目录
编写python爬虫,可以使用urllib或requests模块,参考资料如下:
requests文档
urllib官方文档
下载网页——直接下载
需要首先安装pip和chardet (pip install chardet)
import urllib.request
import urllib.error
import chardet
import sys
def download(url):
print('Downloading:',url)
try:
html=urllib.request.urlopen(url).read()
encode=chardet.detect(html)#获取网页编码
except urllib.error.URLError as e:
print('Download error:',e.reason)
html=None
return html.decode(encode['encoding'])
下载网页——超时重新下载
当进行网页访问时,会经常出现错误,如4XX或者5XX,这里对于5XX的错误重新下载。
def download(url,retries_time=3):
print('Downloading:',url)
try:
html=urllib.request.urlopen(url).read()
encode=chardet.detect(html)