代理ip

1、含义

代理服务器的ip地址。

代理服务器:允许一个网络终端(一般为客户端)通过这个服务与另一个网络终端(一般为服务器)进行非直接的连接,即提供转接请求功能。一些网关、路由器等网络设备具备网络代理功能。一般认为代理服务有利于保障网络终端的隐私或安全,防止攻击。

2、代理ip的分类

透明代理ip:可以看到所有使用的代理ip和真实客户地址,请求的参数:remote_addr=最后一个代理服务器ip,http_via=代理服务器ip,http_x_forward_for=你的真实ip,多个代理ip

匿名代理ip:可以看出使用了代理,请求参数:remote_addr=最后一个代理服务器ip,http_via=代理服务器ip,http_x_forward_for=多个代理ip

高级匿名代理ip:无法看出是否使用了代理,请求参数:remote_addr=代理服务器ip,http_via=没有数值显示,http_x_forward_for=没有数值显示,和没有使用代理ip请求头参数一样。

3、使用代理ip的原因

使用爬虫爬取一个网站的大量数据时会因为频繁的连接该网站给对方服务器造成极大的压力而被对方屏蔽ip,这个时候就需要爬虫频繁的切换ip,故而需要维护自己的ip代理池。

4、ip代理池的需求特点

1)、由于ip代理池需要被多个爬虫使用,所以ip代理池应该作为一种服务来被使用(全局共享代理ip)。

2)、不同使用方的使用要求不一样,所以ip代理池应该根据使用方的需求提供最佳的代理ip,如果使用方使用代理ip失败,则需要提供另外一个代理ip(动态切换代理ip)。

3)、不是每一个代理ip都能使用,所以需要ping检测(心跳检测)

2、构建ip代理池的思路

123

使用爬虫爬取其他网站公布的免费代理ip存储在数据库中,通过心跳检测检查localIp与代理ip的热度获取满足热度要求的代理ip,并把该代理ip存储在redis缓存中(由于需要频繁的获取和存放代理ip所以将这些数据存放在缓存中)作为待用ip,之后根据使用方的目标地址通过心跳检测检查targetIp和代理ip的热度获取可用的代理ip,并将这个关系以targetIp为key,其他可用代理ip为value的形式存储在redis中(value可以只存储第一个代理ip和它的相关信息,然后通过相关信息获取下一个可用代理ip),之后随机提供一个可用的代理ip给使用方,并根据使用方的结果提供进一步的服务。

5、webmagic使用代理的实现方式


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值