代理IP的背后原理简单介绍与python写一个获取代理IP的爬虫

本文介绍了代理IP的分类,包括匿名程度和代理协议,并详细解释了代理IP的工作原理,涉及REMOTE_ADDR、HTTP_VIA和X-Forwarded-For等关键头部。最后提到了如何使用Python构建简易代理池。
摘要由CSDN通过智能技术生成

title: 代理IP的那些事
copyright: true
top: 0
date: 2019-11-13 14:20:39
tags: 代理IP
categories: 爬虫笔记
permalink:
password:
keywords:
description: 代理IP的背后原理

他命带无数桃花,但他迟钝到了一定的地步。他就是复活节岛上那些眺望海面的石头雕像,桃花飘到他身上,纯是白瞎了。

简单的来说,代理IP就是本来是A–>C变成了A–>B–>C。

代理IP分类

匿名程度分类

按照隐匿性由高到低可以分如下四类:

  1. 高匿名代理
  2. 混淆代理
  3. 匿名代理
  4. 透明代理

代理协议分类

按照代理IP协议来分有如下六类:

  1. FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。
  2. HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。
  3. SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高支持128位加密强度),端口一般为443。
  4. RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554。
  5. Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。
    POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。
  6. SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5,前者只支持TCP,而后者支持TCP和UDP,还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。

转载地址

代理IP原理

上面说起四种代理类型,这四种的区别在于代理IP服务器的配置,不同配置造成不同的代理类型。

其中,REMOTE_ADDR,HTTP_VIA,HTTP_X_FORWARDED_FOR是决定性因素。

REMOTE_ADDR

如果不是用代理访问我的博客,那么我的服务器记录REMOTE_ADDR设为你的的IP地址,如果使用代理,则会记录代理的IP。

HTTP_VIA

via是HTTP协议里面的一个header,记录了一次HTTP请求所经过的代理和网关,经过1个代理服务器,就添加一个代理服务器的信息,经过2个就添加2个。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪子燕青啦啦啦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值