使用代理IP来爬取网页可以提高爬虫的稳定性和匿名性。下面是一个使用代理IP的简单示例:
import requests
# 设置代理IP
proxies = {
'http': 'http://ip_address:port',
'https': 'https://ip_address:port',
}
# 发起请求,并使用代理IP
response = requests.get('http://www.example.com', proxies=proxies)
# 检查响应状态码
if response.status_code == 200:
# 处理正常响应数据
print(response.text)
else:
# 处理错误情况
print('请求失败')
在上面的示例中,ip_address
和port
代表代理IP的地址和端口号。可以根据实际情况替换为有效的代理IP。
需要注意的是,代理IP可能会有稳定性问题或被网站屏蔽的风险。因此,在使用代理IP时,建议使用多个代理IP,并且定期更换。可以通过一些免费或付费的代理IP服务提供商获取代理IP。