《python3网络爬虫开发实战 第二版》之爬虫基础-代理的基本原理 详解

代理的基本原理

当网站采取了反爬措施时,我们进行自动爬虫时,可能会出现“您的IP访问频率太高”这样的提示。一般是服务器会检测某个IP地址在单位时间内的请求次数,如果请求次数超过了设定的阈值,就直接拒绝服务,并返回错误信息,这种情况称之为封IP。

既然服务器时通过检测某个IP在单位时间内的请求次数,如果我们通过某种方式把IP伪装一下,让服务器检测不出来请求是由我们本机发起的,不就可以成功防止封IP了吗?

其中一种有效的伪装方式就是使用代理。那么是如何实现伪装IP的呢?

代理的基本原理

代理其实就是代理服务器,英文是proxy Server,功能是代替网络用户收集网络信息。简单来说,就是网络用户和服务器中间的中转站。

客户端把请求发送给代理服务器,代理服务器再把请求发送给网络服务器,网络服务器返回的响应也是发送给代理服务器,再由代理服务器发送给客户端。
在这个过程中,网络服务器识别到的IP就不是客户端的IP,而是代理服务器的IP,成功实现了伪装,这就是代理。

代理的作用

  • 突破自身IP的访问限制,访问一些平时不能访问的站点
  • 访问一些单位或团体的内部资源
  • 提高访问速度。
  • 隐藏真实的IP。爬虫代理就是通过隐藏自身的IP,防止自身的IP被封锁。

代理的分类

根据协议进行区分

  1. FTP代理服务器:主要用于访问FTP服务器,
  2. HTTP代理服务器:主要用于访问网页
  3. SSL\TLS代理:主要用于访问加密网站
  4. RTSP代理:主要用于Realplayer访问Real流媒体服务器
  5. Telnet代理:蛀牙用于Telnet远程控制
  6. POP3/SMTP代理:主要用于以POP3/SMTP方式收发邮件
  7. SOCKS代理:知识单纯传递数据包,不关心具体的协议和用法

根据匿名程度进行区分

  1. 高度匿名代理:不改变数据包,ip是代理ip
  2. 普通匿名代理:改动数据包,可能会被服务器发现。
  3. 透明代理:改动数据包,告诉服务器真实的请求IP。
  4. 间谍代理

常见的代理设置

  • 网上的免费代理,最好使用高度匿名代理
  • 使用付费dialing服务
  • ADSL拨号,拨一次号换一次IP
  • 蜂窝代理,使用4G或者5G卡制作的代理,成本 较高。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值