爬虫使用代理
场景:当同一台主机ip短时间内请求对方服务器次数过多时,会被判定为爬虫,ip被封,导致信息无法获取。
专业一点就是:1.让服务器以为不止一个客户端在请求;2.防止我们真实地址被泄露,防止被追究。
1.requests:
方法:在访问时添加proxies代理,proxies形式:字典
proxies={
“http”:“12.34.56.79:9527”,
“https”:“12.34.56.79:9527”
}
字典的键是协议(http/https),由请求的地址是什么协议而定;字典的是由两部分组成,分别是主机ip和端口号。
代理的类型:普通和高匿