爬虫常见的反爬手段主要是IP反爬,那我们该如何去解决呢?当然是去买代理IP呀,现在一些主要的付费代理Ip网站有快代理,高匿代理,芝麻代理等。本次是用芝麻代理来做的演示
我们先提取10个,建议勾选如图选项
然后点击生产API链接,就会出现3种形式,我们选择独享代理,并复制链接
代码设置代理IP
# coding=utf-8
import random
import requests
def get_proxies():
proxy_api='代理IP的api'
res=requests.get(proxy_api)
api=res.text.split('\n') # 将字符串分割位列表
del(api[-1]) # 删除最后一个空的元素
print(res)
print(type(api))
print(api)
return api
def test_proxies():
proxies=get_proxies()
random_ip=random.choice(proxies) # 随机选取一个
ip=random_ip.strip() # 删除空格
print('正在使用{0}IP'.format(ip))
proxies={
'https':'http://'+ip
}
try:
res = requests.get(url='爬取的网址', proxies=proxies)
except requests.ConnectionError:
print('IP{0}发生错误!')
if __name__ == '__main__':
test_proxies()
打印出来的结果