HtmlUnit+Jsoup学习总结

最新推荐文章于 2024-01-28 14:32:32 发布

我家有个艳

最新推荐文章于 2024-01-28 14:32:32 发布

阅读量6.2k

点赞数 2

分类专栏：爬虫文章标签： htmlunit jsoup

本文链接：https://blog.csdn.net/u010814849/article/details/52474094

版权

爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、网页数据大概分为三类：

1.静态网页

所有内容都写在Html标签中，可以从网页源代码中直接查找到数据。

2.动态网页

数据是通过JavaScript动态加载显示到<body>中,直接查找源代码不能找到数据。

3.登陆网页

3.1 无验证码登陆

需要通过登陆后才可以查看获取网页数据。（包括静态、动态）

3.2 有验证码登陆（暂时还未研究）

验证码目前形势也较多:

传统验证图片输入

拖动验证

点击图中某些字

短信验证

计算图片算术结果

....

二、爬虫获取数据步骤：

1. 通过http协议，获取（下载）网页（起始页）

2. 解析网页:

2.1 解析网页链接，加入爬队列(去重处理，标记已爬取链接)

2.2 取得需要的数据

3. 保存数据

三、爬取技术选取：HtmlUnit+Jsoup

采用htmlunit获取网页，并解析执行js，渲染页面

采用jsoup解析网页，获取数据和链接

Htmlunit常用参数设置：

参数设置如下：

// 1创建WebClient

WebClient webClient=new WebClient(BrowserVersion.CHROME);
    // 2 启动JS
         webClient.getOptions().setJavaScriptEnabled(true);
         // 3 禁用Css，可避免自动二次請求CSS进行渲染
         webClient.getOptions().setCssEnabled(false);
         // 4 启动客戶端重定向
          webClient.getOptions().setRedirectEnabled(true);
        // 5 js运行错誤時，是否拋出异常
          webClient.getOptions().setThrowExceptionOnScriptError(false);
        // 6 设置超时
         webClient.getOptions().setTimeout(50000);
       //获取网页

HtmlPage htmlPage = webClient.getPage(url);
         // 等待JS驱动dom完成获得还原后的网页
           webClient.waitForBackgroundJavaScript(10000);
        // 网页內容
        /* System.out.println(htmlPage.asXml()); */