how to create proxies pool

How to code a proxies pool

代理的基本知识

代理服务器类型很多:HTTP代理,FTP代理,SOCKS代理。各种代理的特性如下:

  • HTTP代理:能够代理客户机的HTTP访问,主要是代理浏览器访问网页,它的端口一般为80、8080、3128等。
  • FTP代理:能够代理客户机上的FTP软件访问FTP服务器,它的端口一般为21、2121。
  • RTSP代理:代理客户机上的Realplayer访问Real流媒体服务器的代理,其端口一般为554。
  • POP3代理:代理客户机上的邮件软件用POP3方式收发邮件,端口一般为110。
  • SOCKS代理:SOCKS代理与其他类型的代理不同,它只是简单地传递数据包,而并不关心是何种应用协议,既可以是HTTP请求,所以SOCKS代理服务器比其他类型的代理服务器速度要快得多。SOCKS代理又分为SOCKS4和SOCKS5,二者不同的是SOCKS4代理只支持TCP协议(即传输控制协议),而SOCKS5代理则既支持TCP协议又支持UDP协议(即用户数据包协议),还支持各种身份验证机制、服务器端域名解析等。SOCK4能做到的SOCKS5都可得到,但SOCKS5能够做到的SOCKS则不一定能做到,比如我们常用的聊天工具QQ在使用代理时就要求用SOCKS5代理,因为它需要使用UDP协议来传输数据。

HTTP代理相关知识

  • 透明代理:也叫普通代理,它不但改变了我们的请求信息,还会传送真实的IP地址。从:HTTP_X_FORWARDED_FOR等代理信息可以查到我们IP地址!
  • 匿名代理:普通匿名代理,它能隐藏客户机的真实IP,但会改变我们的请求信息。它不传送正式ip,但是可能会发送HTTP_VIA、HTTP_PROXY_CONNECTION
  • 信息,还是可以通过这些判断出使用了代理!
  • 高级匿名代理:不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理!
  • HTTP通道:http代理服务器支持Connect请求,这类代理服务器基本可以代理所有软件,如:QQ,FoxMail,FTP等等,不支持通道的HTTP代理,基本上只支持简单的Http
  • GET,POST等请求服务!

###SOCKS代理知识

  • SOCKS5:常见SOCKS代理有Socks4,socks5,不过目前基本上以socks5代理为主,它基本支持所有客户端请求协议,Http,Ftp,Smtp等,可以具备高级匿名代理隐藏功能!

运用场景

这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。

爬虫抓取思路

  • 分布式爬虫
  • ip代理池
  • 设置延迟抓取

网站反爬思路

  • 针对并发数高的爬虫,可手工识别;也可在服务器端设置每个ip连接次数。
  • 通过User-Agent识别爬虫。此种情况下是针对并发连接数不是很高的爬虫而设置的。
  • 通过网站流量统计系统和日志分析来识别爬虫。有些爬虫喜欢修改User-Agent信息来伪装自己,把自己伪装成一个真实浏览器的User-Agent信息,让你无法有效的识别。这种情况下我们可以通过网站流量系统记录的真实用户访问IP来进行识别。
  • 网站的实时反爬虫防火墙实现策略

思路

定时抓代理页面,然后分析后提取.
定时获取代理源,根据需要测试的目标网站,用代理ip进行速度,超时等一些性能指标的测试.以便获取针对目标网站抓取的最佳ip.

亮点难点

就是要根据若干提供的目标网站,做多重判定(测试到每个目标网站的速度,超时).

代理池现状

一般的代理网站只有单一测试. 改进思路: 构建一个目标网站测试url池.

编写代理池相关网页

含代理数据相关网页

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值