设置程序休止时间
n为你想要实现的时间间隔
import time
time.sleep(n)
设置代理
#使用urllib.request的两个方法进行代理的设置
proxy = urlrequest.ProxyHandler({
'https':'47.91.78.201:3128'})
opener = urlrequest.build_opener(proxy)
User-Agent
网站是可以识别你是否在使用Python进行爬取,需要你在发送网络请求时,把header部分伪装成浏览器。
opener.addheaders = [(‘User-Agent’,’…’)]
用不同浏览器访问的header字符串,放入上述代码省略号的部分即可。
常用的浏览器header有:
实例
示例:Place Pulse Google街景图爬取
课程参考代码:
1.准备工作:载入包,定义存储目录,连接API
import urllib.request as urlrequest
import time
import random
IMG_PATH = './imgs/{}.jpg'
DATA_FILE = './data/votes.csv'
STORED_IMG_ID_FILE = './data/cached_img.txt'
STORED_IMG_IDS = set