【虫术】资深爬虫师带你爬取代理IP

最新推荐文章于 2023-11-08 14:33:45 发布

爱码小士

最新推荐文章于 2023-11-08 14:33:45 发布

阅读量688

点赞数 1

文章标签： Python 网络爬虫大数据

本文链接：https://blog.csdn.net/Stephen_shijun/article/details/83311029

版权

有时候在网站看小说，会莫名跳出来一个“疑似机器恶意爬取，暂时无法访问”这样类似的网站提示，需要刷新一下或者输入一个验证码才能重新进入，这样的情况偶有发生，相信大家都有遇到过。出现这个现象的原因就是我们浏览的网页采取了反爬虫的措施，特别做爬虫爬取网页，在某个ip单位时间请求网页次数过多时，服务器会拒绝服务，这种情况就是由于访问频率引起的封ip，这种情况靠解封不能很好的解决，所以我们就想到了伪装本机ip去请求网页，也就是我们今天要讲的使用代理ip。

目前网上有许多代理ip，有免费的也有付费的，例如西刺代理，豌豆代理，快代理等等，免费的虽然不用花钱但有效的代理很少且不稳定，付费的可能会好一点，不过今天我只爬取免费的西刺代理并将检测是否可用，将可用ip存入MongoDB，方便下次取出。

运行平台：Windows

Python版本：Python3.6

**IDE: **Sublime Text

其他：Chrome浏览器

简述流程为：

步骤1：了解requests代理如何使用

步骤2：从西刺代理网页爬取到ip和端口

步骤3：检测爬取到的ip是否可用

步骤4：将爬取的可用代理存入MongoDB

步骤5：从存入可用ip的数据库里随机抽取一个ip,测试成功后返回

对于requests来说，代理的设置比较简单，只需要传入proxies参数即可。

不过需要注意的是，这里我是在本机安装了抓包工具Fiddler，并用它在本地端口8888创建了一个HTTP代理服务（用Chrome插件SwitchyOmega），即代理服务为：127.0.0.1:8888，我们只要设置好这个代理，就可以成功将本机ip切换成代理软件连接的服务器ip了。

import requests

proxy = '127.0.0.1:8888'
proxies = {
    'http':'http://' + proxy,
    'https':'http://' + proxy
}

try:
    response = requests.get('http://httpbin.org/get',proxies=proxies)
    print(response.text)
except requests.exceptions.ConnectionError as e:
    print('Error',e.args)
http://httpbin.org/get

这里我是用来http://httpbin.erg/get作为测试网站，我们访问该网页可以得到请求的有关信息，其中origin字段就是客户端ip，我们可以根据返回的结果判断代理是否成功。返回结果如下：

{
    "args":{}，
    "headers":{
        "Accept":"*/*",
        "Accept-Encoding":"gzip, deflate",
        "Connection":"close",
        "Host":

最低0.47元/天解锁文章

爱码小士

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【虫术】资深爬虫师带你爬取代理IP

有时候在网站看小说，会莫名跳出来一个“疑似机器恶意爬取，暂时无法访问”这样类似的网站提示，需要刷新一下或者输入一个验证码才能重新进入，这样的情况偶有发生，相信大家都有遇到过。出现这个现象的原因就是我们浏览的网页采取了反爬虫的措施，特别做爬虫爬取网页，在某个ip单位时间请求网页次数过多时，服务器会拒绝服务，这种情况就是由于访问频率引起的封ip，这种情况靠解封不能很好的解决，所以我们就想到了...
复制链接

扫一扫