Python突破封禁文章链接--------------
1.给公司做的网站上线了,下午闲着给网站做峰值测试的时候想到的,开多线程爬个几千次,以前也学过一段时间python,写过爬取百度图片的几个demo,然后因为实习的事情就没然后了.......
Dictionary<string, int> dic = new Dictionary<string, int>(){{“47.52.62.110”,8080}};
string url = @"http://test.forfcw.cn";
foreach (string d in dic.Keys)
{
try
{
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
WebProxy proxy = new WebProxy(d, dic[d]);
request.Proxy = proxy;
request.Timeout = 3000;
WebResponse response = request.GetResponse();
TextReader reader = new StreamReader(response.GetResponseStream());
Console.WriteLine(reader.ReadToEnd());
reader.Close();
response.Close();
}
catch (Exception e) { Console.WriteLine(d); }
}
然而没成百上千个代理ip都没用,所以还要写爬虫去爬代理域名
2.找了一下对代理请求的防范,可以通过http header来判断
一、没有使用代理服务器的情况:
REMOTE_ADDR = 您的 IP
HTTP_VIA = 没数值或不显示
HTTP_X_FORWARDED_FOR = 没数值或不显示二、使用透明代理服务器的情况:Transparent Proxies
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 代理服务器 IP (补充:这个字段由代理服务器填充,有时会填充网关信息等)
HTTP_X_FORWARDED_FOR = 您的真实 IP
这类代理服务器还是将您的信息转发给您的访问对象,无法达到隐藏真实身份的目的。三、使用普通匿名代理服务器的情况:Anonymous Proxies
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 代理服务器 IP (补充:这个字段由代理服务器填充,有时会填充网关信息等)
HTTP_X_FORWARDED_FOR = 代理服务器 IP
隐藏了您的真实IP,但是向访问对象透露了您是使用代理服务器访问他们的。四、使用欺骗性代理服务器的情况:Distorting Proxies
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 代理服务器 IP (补充:这个字段由代理服务器填充,有时会填充网关信息等)
HTTP_X_FORWARDED_FOR = 随机的 IP
告诉了访问对象您使用了代理服务器,但编造了一个虚假的随机IP代替您的真实IP欺骗它。五、使用高匿名代理服务器的情况:High Anonymity Proxies
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 没数值或不显示
HTTP_X_FORWARDED_FOR = 没数值或不显示
完全用代理服务器的信息替代了你的所有信息,就象你就是完全使用那台代理服务器直接访问对象
但多数请求还是会构造header,使自己看起来更像是一个浏览器请求 ,以python为例(毕竟顶着Python-urllib/3.4,傻逼都知道是假的)
import urllib
import urllib2
url = 'http://www.pythontab.com'
values = {'name' : 'Michael Foord'}
headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' }
data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
response = urllib2.urlopen(req)
the_page = response.read()