从零实现一个高性能网络爬虫（二）应对反爬虫之前端数据混淆

最新推荐文章于 2024-07-30 21:19:19 发布

vwycm

最新推荐文章于 2024-07-30 21:19:19 发布

阅读量2k

点赞数

文章标签：网络爬虫前端高性能爬虫

本文链接：https://blog.csdn.net/vwycm/article/details/77407789

版权

本文介绍了如何应对网站前端数据混淆的反爬虫策略，通过分析JavaScript脚本，理解混淆逻辑，并在目标语言中实现解密过程。以goubanjia.com为例，展示了如何抓取隐藏的IP和Port，讨论了无头浏览器如PhantomJS作为替代方案的优缺点。

摘要由CSDN通过智能技术生成

摘要

上一篇以知乎网为例简单分享网络请求分析。这一篇主要分享一种应对反爬虫的方法，前端数据混淆。

目的

之前写https://github.com/wycm/zhihu-crawler项目的时候，需要用到免费的http代理，然后找到了这个 http://www.goubanjia.com/ 这个网站。现在需要把这个网站上的ip和port爬取下来，有兴趣的朋友也可以尝试自己爬取一下。

开始

打开这个网站首页，然后控制台查看ip和port的对应标签。
如上图（图一），从控制台的标签中可以看出ip加了一些无关不显示的标签来混淆数据，这里混淆的原理其实很简单，通过标签的style=”display:none”属性来达到混淆的目的，也就是包含这个属性的标签是不会显示在页面上的。知道了这一点就比较好处理了，只需要在解析的时候把包含style=”display:none”属性的标签去掉。就可以轻松的拿到ip和port数据了。
代码如下

package com.cnblogs.wycm;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URL;

/**
 *
 * 数据的解析采用的是Jsoup框架，Jsoup是一个操作HTML标签的Java库，它提供了非常方便的API来提取和操纵库，支持类似jquery的选择器来查找标签。
 * 由于请求比较单一，这里的网络请求并没有采用上一篇所使用HttpClient框架。直接通过Jsoup来执行http请求的。
 * 关于Jsoup的使用可以参考http://www.open-open.com/jsoup/
 *
 */
public class Chapter1 {
   
    public static void main(String[] args) throws IOException {
        Document document= Jsoup.parse(new URL("http://www.goubanjia.com/"), 10000);
        //获取class='table'的table的所有子节点tr
        Elements elements = document.select("table[class=table] tr");
        for (int i = 1; i < elements.size(); i++){
            //获取td节点
            Element td = elements.get(i).select("td").first();
            /**
             * 查找所有style属性包含none字符串的标签（页面上未显示的标签），并移除
             * 包括以下两种
             * style=display: none;
             * style=display:none;
             */
            for(Element none : td.select("[style*=none;]")){
                none.remove();
            }
            //移除空格
            String ipPort = td.text().replaceAll(" ", "");
            //打印
            System.out.println(ipPort);
        }
    }
}
/*
第一次运行打印结果:
183.129.246.228:8132
222.92.136.206:8987
54.238.186.100:8988
...
第二次运行打印结果：
183.129.246.228:8377
222.92.136.206:9059
54.238.186.100:8622
...
*/

ip地址能够准确的拿到了，却发现port被做了混淆，而且每次返回的port还在动态改变。大家可以通过把浏览器的JavaScrip脚本关闭后，然后刷新这个网页。会发现每次的port都不一样。我们每次看到的正确port都是通过JavaScript脚本处理后的。如果采用普通爬虫的方式拿到的port都是错误的。现在要想拿到正确的port，可以通过分析它JavaScrip脚本还原数据的逻辑。
同样打开控制台->选择Sources->选择一行js代码打断点（点击行编号），如下图