摘要
- 上一篇以知乎网为例简单分享网络请求分析。这一篇主要分享一种应对反爬虫的方法,前端数据混淆。
目的
开始
- 打开这个网站首页,然后控制台查看ip和port的对应标签。
- 如上图(图一),从控制台的标签中可以看出ip加了一些无关不显示的标签来混淆数据,这里混淆的原理其实很简单,通过标签的style=”display:none”属性来达到混淆的目的,也就是包含这个属性的标签是不会显示在页面上的。知道了这一点就比较好处理了,只需要在解析的时候把包含style=”display:none”属性的标签去掉。就可以轻松的拿到ip和port数据了。
- 代码如下
package com.cnblogs.wycm;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URL;
/**
*
* 数据的解析采用的是Jsoup框架,Jsoup是一个操作HTML标签的Java库,它提供了非常方便的API来提取和操纵库,支持类似jquery的选择器来查找标签。
* 由于请求比较单一,这里的网络请求并没有采用上一篇所使用HttpClient框架。直接通过Jsoup来执行http请求的。
* 关于Jsoup的使用可以参考http://www.open-open.com/jsoup/
*
*/
public class Chapter1 {
public static void main(String[] args) throws IOException {
Document document= Jsoup.parse(new URL("http://www.goubanjia.com/"), 10000);
Elements elements = document.select("table[class=table] tr");
for (int i = 1; i < elements.size(); i++){
Element td = elements.get(i).select("td").first();
/**
* 查找所有style属性包含none字符串的标签(页面上未显示的标签),并移除
* 包括以下两种
* style=display: none;
* style=display:none;
*/
for(Element none : td.select("[style*=none;]")){
none.remove();
}
String ipPort = td.text().replaceAll(" ", "");
System.out.println(ipPort);
}
}
}
- ip地址能够准确的拿到了,却发现port被做了混淆,而且每次返回的port还在动态改变。大家可以通过把浏览器的JavaScrip脚本关闭后,然后刷新这个网页。会发现每次的port都不一样。我们每次看到的正确port都是通过JavaScript脚本处理后的。如果采用普通爬虫的方式拿到的port都是错误的。现在要想拿到正确的port,可以通过分析它JavaScrip脚本还原数据的逻辑。
- 同样打开控制台->选择Sources->选择一行js代码打断点(点击行编号),如下图