代理的基本原理

代理(Proxy Server)实际上就是指代理服务器,是网络信息的中转站,在客户端和服务端之间搭建一座桥梁;如果此时客户端发送请求会直接发送到代理服务器,然后由代理服务器把请求发送给Web服务端,Web服务器返回的响应也是由代理服务器转发给客户端。在这个过程中Web服务器识别出来的真实IP就不再是客户端的IP了,成功实现IP伪装,这就是代理的基本原理。

1.代理的作用

1.1突破自身IP的访问限制,访问一些平时不能访问的站点。

1.2访问一些单位或团体的内部资源。如:公司内部的代理服务器,内部上传或者下载各类信息数据等。

1.3提高访问速度。一般,代理服务器会设置一个较大的硬盘缓冲区,当有外界的信息通过时,会同时将其保存到自己的缓冲区中,当其他用户访问相同的信息时,直接从缓冲区中取出信息,提高了访问速度。

1.4隐藏真实IP。对于爬虫来说,使用代理就是为了隐藏自身IP,防止自身的IP被封锁。

2.爬虫代理

由于爬虫在爬取数据过程中速度过快且可能会遇到同一个IP访问过于频繁导致被封锁IP;使用爬虫代理可以很好的隐藏真实的IP,这样在爬取过程中不断更换代理,就可以避免IP被封锁,达到很好的爬取效果。

3.代理分类

代理一般分成两类方式,一类是根据协议,另一类根据代理的匿名的程度。

3.1根据协议分类

3.1.1 FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。

3.1.2 HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。

3.1.3 SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能,端口一般为443。

3.2根据匿名程度区分

3.2.1 高度匿名代理:高度匿名代理会将数据包原封不动地转发,在服务端看来似乎真的是一个普通客户端在访问,记录的IP则是代理服务器的IP。

3.2.2 普通匿名代理:普通匿名代理会对数据包做一些改动,服务端可能会发现正在访问自己的是个代理服务器,并且有一定概率去追查客户端的真实IP。这里代理服务器通常会加入的HTTP头有HTTP_VIP和HTTP_X_FORWARDED_FOR。

4.常见代理设置

4.1 对于网上的免费代理,最好使用高度匿名代理,可以在使用前把所有代理都抓取下来筛选一下可用代理,也可以进一步维护一个代理池。

4.2 使用付费代理服务。

4.3  ADSL拨号,拨一次号换一次IP,稳定性高。

4.4 蜂窝代理,即用4G或5G网卡等制作的代理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值