了解到爬虫在爬取时,有时会受到ip一定时间内访问数量的限制,按照网上大神的说法,应当设置通过代理服务器访问网页。
我还没有爬取过那么庞大的数据,当前没遇到这个问题。这里只是把方法记录
整体步骤为:
1、设置代理服务器
2、爬取数据
设置代理服务器的方法为
import urllib.request
def set_proxy():
handler = urllib.request.ProxyHandler({'http':'http://131.135.6.59:8080'})
opener = urllib.request.build_opener(handler)
return opener
这里的handler函数需要一个字典函数,前半部分为服务器地址,冒号后为端口
opener用来创建一个服务器
第二步是爬取数据
def get_content(url)L
opener = set_proxy()
return opener.open(url)
这里有分支,按照网上大神的说法,可以设置默认服务器。用到的函数调用是urllib.request.install_opener(opener),无返回值,方法调用。
这样的调用是重新设置了默认服务器,爬取数据的时候可以用urllib.request.urlopen(url)进行爬取
421

被折叠的 条评论
为什么被折叠?



