一般网站会设置一个固定的IP访问频率的阀值,如果一个IP访问频率过于频繁,网站服务器就会判断为爬虫程序,从而禁止我们访问。使用IP代理可以很好地解决这个问题。
使用IP代理的步骤:
1、调用urllib.request.ProxyHandler(proxies)
2、创建Opener
urllib.request.build_opener(【proxy,HTTPHandler,......】)
3、安装opener
urllib.request.install_opener(opener)
urllib.request.install_opener(opener)