title: 代理IP的那些事
copyright: true
top: 0
date: 2019-11-13 14:20:39
tags: 代理IP
categories: 爬虫笔记
permalink:
password:
keywords:
description: 代理IP的背后原理
他命带无数桃花,但他迟钝到了一定的地步。他就是复活节岛上那些眺望海面的石头雕像,桃花飘到他身上,纯是白瞎了。
简单的来说,代理IP就是本来是A–>C变成了A–>B–>C。
代理IP分类
匿名程度分类
按照隐匿性由高到低可以分如下四类:
- 高匿名代理
- 混淆代理
- 匿名代理
- 透明代理
代理协议分类
按照代理IP协议来分有如下六类:
- FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。
- HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。
- SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高支持128位加密强度),端口一般为443。
- RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554。
- Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。
POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。 - SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5,前者只支持TCP,而后者支持TCP和UDP,还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。
代理IP原理
上面说起四种代理类型,这四种的区别在于代理IP服务器的配置,不同配置造成不同的代理类型。
其中,REMOTE_ADDR,HTTP_VIA,HTTP_X_FORWARDED_FOR是决定性因素。
REMOTE_ADDR
如果不是用代理访问我的博客,那么我的服务器记录REMOTE_ADDR设为你的的IP地址,如果使用代理,则会记录代理的IP。
HTTP_VIA
via是HTTP协议里面的一个header,记录了一次HTTP请求所经过的代理和网关,经过1个代理服务器,就添加一个代理服务器的信息,经过2个就添加2个。