java爬虫遇到封IP问题

在抓取某房产网站时遇到IP被封的问题,由于网站反爬策略,导致爬取到的document为空并引发解析错误。解决方案是使用西刺代理获取IP,经过筛选后存入Redis作为IP池。当爬取时遇到错误,切换IP重试,连续错误则跳过,成功则继续解析。
摘要由CSDN通过智能技术生成

近期做java爬虫,爬某房产网站的时候,该网站对IP监测非常敏感,故需要对应的解决方案,且被封后不是405页面,而是一个纯白的空页面,所以爬下来的document是空的,在解析的时候才报错。

解决方案是去西刺代理爬取IP,对IP进行筛选,筛选出可用的IP,放进redis做一IP池,在爬取页面的时候,遇到解析报错时,进行更换IP操作,再爬一次document,反复几次,连续报错就continue掉,如果解析不报错就break弹出继续解析。

			private static String IPPOOLURL = "https://www.xicidaili.com/wn/";
						
			Jedis jedis = new Jedis("127.0.0.1", 6379);
			List<String> ipList = jedis.lrange("ipPool", 0, -1);
			// 爬虫前先获取IP池,存入redis备用,判断该池是否存在,爬10页西刺的数据
			if (CollectionTools.isBlank(ipList)) {
				for (int i = 1; i < 11; i++) {
					if (i == 1) {
						getIpPool(IPPOOLURL, jedis);
					} else {
						getIpPool(IPPOOLURL + i, jedis);
					}
				}
				ipList = jedis.lrange("ipPool", 0, -1);
			}
			jedis.close();
/**
 * 爬IP池
 */
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值