爬虫的攻防技术

爬虫的攻防技术

如何发现一个爬虫?一般情况下网站是不会大量的验证用户请求.除非你在访问重要数据.

1.单一的访问频次过高 - 普通人,10秒访问一个网页, 爬虫一秒获取10个网页
2.单一的ip出现非常规的流量
3.大量的重复简单的网页浏览行为
4. 只下载html文档, 不下载js
5. 在页面设置陷阱, 用户看不懂, 爬虫是可以的, 比如 hidden
6.在页面写一段js代码, 浏览器直接执行, 程序不会执行
7.判断请求头: user-agent

如何不被发现?

1.多主机的策略, 解决单一ip的问题, 分布式爬取
2.调整访问频次, 爬一会休息一下
3.通过不断切换ip, 或者直接使用ip代理的形式
4. 频繁的修改user-agent头
5.Header中的Cache-Control修改为no-cache
6.当返回状态码是403(服务器资源禁止访问),改变Header和IP。
public static void main(String[] args) throws Exception {
		HttpGet httpGet = new HttpGet("https://news.163.com/");
		
      	//我是专门用来模拟浏览器,让我的请求看起来和真实的浏览器一样
		httpGet.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
		httpGet.setHeader("Accept-Encoding", "gzip, deflate, sdch, br");
		httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.8");
		httpGet.setHeader("Cache-Control", "no-cache");
		httpGet.setHeader("Cookie", "_ntes_nnid=4b1a6bbc71e14269912bdc23980b3fb1,1531559784738; _ntes_nuid=4b1a6bbc71e14269912bdc23980b3fb1;");
		httpGet.setHeader("Host", "news.163.com");
		httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");
  		httpGet.setHeader("referer","http://news.163.com/");
		
		CloseableHttpClient httpClient = HttpClients.createDefault();
		CloseableHttpResponse res = httpClient.execute(httpGet);
		HttpEntity entity = res.getEntity();
		String html = EntityUtils.toString(entity,"utf-8");
		System.out.println(html);
	}
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值