java使用代理ip爬取网站内容

面对反爬虫技术,当同一IP频繁访问被禁时,可使用代理IP。Java实现这一策略有两种方式:一是设置System系统属性,二是利用java.net.Proxy类进行配置。
摘要由CSDN通过智能技术生成

在一些有反爬虫技术的网站中,检测到同一ip在短时间内多次访问的时候,可能就会禁掉这个ip。

上有政策,下有对策,为了应对这种情况,可以使用多个代理ip去爬取这个网站。

java使用代理ip有两种方法:

1.设置System系统属性

// 设置代理IP  
System.getProperties().setProperty("proxySet", "true");       
System.getProperties().setProperty("http.proxyHost", "218.26.204.66");  
System.getProperties().setProperty("http.proxyPor
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
JAVA selenium 设置ip代理池: 1. 首先需要下载selenium webdriver,可以在官网下载,或者使用maven仓库下载。 2. 下载好webdriver后,需要下载对应浏览器的driver,比如Chrome浏览器需要下载chromedriver。 3. 在代码中设置代理池,可以使用第三方库ProxyPool,具体使用方法可以参考官方文档。 4. 在使用selenium webdriver时,需要设置代理,可以通过以下代码实现: ```java ChromeOptions options = new ChromeOptions(); options.addArguments("--proxy-server=http://ip:port"); WebDriver driver = new ChromeDriver(options); ``` 其中,ip和port需要替换成代理池中的ip和端口。 webmagic爬取网页数据: 1. 首先需要下载webmagic库,可以在maven仓库中下载。 2. 创建一个Java类,并继承PageProcessor类,实现其中的方法,如下所示: ```java public class ExamplePageProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public void process(Page page) { // 解析页面数据 page.putField("title", page.getHtml().xpath("//title").toString()); page.putField("content", page.getHtml().xpath("//div[@class='content']").toString()); // 添加要爬取的url page.addTargetRequests(page.getHtml().links().regex("(https://www\\.example\\.com/[\\w\\-]+)").all()); } @Override public Site getSite() { return site; } } ``` 3. 在main方法中,创建一个Spider对象,并设置爬取的url和PageProcessor,如下所示: ```java public static void main(String[] args) { Spider.create(new ExamplePageProcessor()) .addUrl("https://www.example.com") .run(); } ``` 4. 运行程序,爬取数据。数据会保存在Page对象中,可以通过page.putField()方法保存。可以通过page.getTargetRequests()方法获取要爬取的url,可以通过page.getResultItems()方法获取保存的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值