修改header
1、通过Request的headers参数修改
// head必须是字典格式
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
req = urllib.request.Request(url, data,head)
2、通过Requst.add_header()方法
req = urllib.request.Request(url, data)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36')
延迟/代理
一、 使用延迟控制访问间隔
time.sleep(5)
二、代理
#1.参数是一个字典{ '类型' : '代理ip:端口号' }
proxy_support = urllib.request.ProxyHandler({})
#2.创建一个opener(urlopen())
opener = urllib.request.build_opener(proxy_support)
#3.安装opener(直接设置默认调用为创建的opener或者每次调用时指定)
urllib.request.install_opener(opener)
opener.open(url)