我们知道,很多网站上现在都装有反爬虫程序。当我们在爬取某一网站的时候,如果被网站中的反爬虫程序识别,那么我们可能就会进入"黑名单”,会被该网站服务器所屏蔽。
如何很好的解决这个问题呢,如果显示的ip地址不是本机ip地址,而是代理服务器的ip地址。那么就有效的解决了这个问题。
接下来,我们来介绍如何在python爬虫中,使用代理服务器。
方法1:可以在互联网中搜索对应得代理服务器地址。这里我们有已经整理好的,网址:http://www.xicidaili.com/
这里我们使用验证时间较短的,这样成功的概率比较大。比如
接下来我将选用北京的这个ip地址。
以下是使用代理服务器来爬取网站内容的实现代码
#通过代理服务器来爬虫
def use_proxy(proxy_addr,url):
import urllib.request
proxy=urllib.request.ProxyHandler({"htt