Proxy代理

Python突破封禁文章链接--------------
1.给公司做的网站上线了,下午闲着给网站做峰值测试的时候想到的,开多线程爬个几千次,以前也学过一段时间python,写过爬取百度图片的几个demo,然后因为实习的事情就没然后了.......

Dictionary<string, int> dic = new Dictionary<string, int>(){{“47.52.62.110”,8080}};
string url = @"http://test.forfcw.cn";
foreach (string d in dic.Keys)
{
try
{
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
WebProxy proxy = new WebProxy(d, dic[d]);
request.Proxy = proxy;
request.Timeout = 3000;
WebResponse response = request.GetResponse();
TextReader reader = new StreamReader(response.GetResponseStream());
Console.WriteLine(reader.ReadToEnd());
reader.Close();
response.Close();
}
catch (Exception e) { Console.WriteLine(d); }
}

然而没成百上千个代理ip都没用,所以还要写爬虫去爬代理域名


2.找了一下对代理请求的防范,可以通过http header来判断

一、没有使用代理服务器的情况
REMOTE_ADDR = 您的 IP
HTTP_VIA = 没数值或不显示
HTTP_X_FORWARDED_FOR = 没数值或不显示

二、使用透明代理服务器的情况:Transparent Proxies

REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 代理服务器 IP (补充:这个字段由代理服务器填充,有时会填充网关信息等)
HTTP_X_FORWARDED_FOR = 您的真实 IP
这类代理服务器还是将您的信息转发给您的访问对象,无法达到隐藏真实身份的目的。

三、使用普通匿名代理服务器的情况:Anonymous Proxies
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 代理服务器 IP (补充:这个字段由代理服务器填充,有时会填充网关信息等)
HTTP_X_FORWARDED_FOR = 代理服务器 IP
隐藏了您的真实IP,但是向访问对象透露了您是使用代理服务器访问他们的。

四、使用欺骗性代理服务器的情况:Distorting Proxies
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 代理服务器 IP  (补充:这个字段由代理服务器填充,有时会填充网关信息等)
HTTP_X_FORWARDED_FOR = 随机的 IP
告诉了访问对象您使用了代理服务器,但编造了一个虚假的随机IP代替您的真实IP欺骗它。

五、使用高匿名代理服务器的情况:High Anonymity Proxies
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 没数值或不显示
HTTP_X_FORWARDED_FOR = 没数值或不显示
完全用代理服务器的信息替代了你的所有信息,就象你就是完全使用那台代理服务器直接访问对象

但多数请求还是会构造header,使自己看起来更像是一个浏览器请求 ,以python为例(毕竟顶着Python-urllib/3.4,傻逼都知道是假的)

import urllib

import urllib2

url = 'http://www.pythontab.com'

values = {'name' : 'Michael Foord'}

headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   }

data = urllib.urlencode(values)

req = urllib2.Request(url, data, headers)

response = urllib2.urlopen(req)

the_page = response.read()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值