HttpClient使用代理IP


在爬取网页的时候,有的目标站点有反爬虫机制,对于频繁访问站点以及规则性访问站点的行为,会采集屏蔽IP措施。


这时候,代理IP就派上用场了。


关于代理IP的话 也分几种 透明代理、匿名代理、混淆代理、高匿代理


1、透明代理(Transparent Proxy)


REMOTE_ADDR = Proxy IP


HTTP_VIA = Proxy IP


HTTP_X_FORWARDED_FOR = Your IP


透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。


2、匿名代理(Anonymous Proxy)


REMOTE_ADDR = proxy IP


HTTP_VIA = proxy IP


HTTP_X_FORWARDED_FOR = proxy IP


匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


还有一种比纯匿名代理更先进一点的:混淆代理,见下节。


3、混淆代理(Distorting Proxies)


REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Random IP address


如上,与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真:-)


4、高匿代理(Elite proxy或High Anonymity Proxy)


REMOTE_ADDR = Proxy IP


HTTP_VIA = not determined


HTTP_X_FORWARDED_FOR = not determined


可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


一般我们搞爬虫 用的都是 高匿的代理IP


那代理IP 从哪里搞呢 很简单  百度一下,你就知道 一大堆代理IP站点。  一般都会给出一些免费的,但是花点钱搞收费接口更加方便

比如:http://www.xicidaili.com/nn/1



案例:

package com.gcx.demo.HelloWorld2;
 
import org.apache.http.HttpEntity;
import org.apache.http.HttpHost;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
 
public class App2 {
 
    public static void main(String[] args) throws Exception{
        CloseableHttpClient httpClient=HttpClients.createDefault(); // 创建httpClient实例
        HttpGet httpGet=new HttpGet("https://www.baidu.com"); // 创建httpget实例
        HttpHost proxy=new HttpHost("222.129.236.24",8118);//设置代理ip 端口
        RequestConfig config=RequestConfig.custom().setProxy(proxy).build();
        httpGet.setConfig(config);
        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0"); // 设置请求头消息User-Agent
        CloseableHttpResponse response=httpClient.execute(httpGet); // 执行http get请求
        HttpEntity entity=response.getEntity(); // 获取返回实体
        System.out.println("网页内容:"+EntityUtils.toString(entity, "utf-8")); // 获取网页内容
        response.close(); // response关闭
        httpClient.close(); // httpClient关闭
    }
}


建议大家用国内代理IP 以及主干道网络大城市的代理IP 访问速度快
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值