python爬虫——代理
原理:主机访问代理服务器,代理服务器访问网页服务器,将返回结果传回。
作用:突破自身IP的访问限制,隐藏自身的真是ip,防止本机ip被封。
使用方式:
proxies = {
'https': 'ip'
}
page_text = requests.get(url=url, headers=headers, proxies=proxies).text
ip为代理服务器ip;
https还是http根据所需访问的url来决定。
代理服务器ip
- 透明:网页服务器知道使用了代理,且知道本机ip
- 匿名:网页服务器知道使用了代理,但不知道本机ip
- 高匿:网页服务器不知道使用了代理,且不知道本机ip