用htmlunit模拟浏览器辅助python做页面爬虫

最新推荐文章于 2022-08-02 16:50:08 发布

刘一痕

最新推荐文章于 2022-08-02 16:50:08 发布

阅读量2.6k

点赞数 3

分类专栏： Python/Ruby

本文链接：https://blog.csdn.net/u013177568/article/details/62432479

版权

本文介绍如何利用htmlunit模拟浏览器行为，助力python实现更高效的页面爬虫功能。通过htmlunit，可以更好地自动化测试和数据抓取，避开一些自动化测试平台如Robot Framework中的常见问题。

摘要由CSDN通过智能技术生成

/**
*如果能够模拟一个没有界面的浏览器，还有什么不能做到的呢？关于解析Ajax网站的框架也有不少，
*我选择了HtmlUnit,官方网站：http://htmlunit.sourceforge.net/?,htmlunit可以说是一个Java
*版本的无界面浏览器，几乎无所不能，而且很多东西都封装得特别完美。
*/
package com.lanyotech.www.wordbank;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.util.List;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.ScriptResult;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlOption;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSelect;

public class WorldBankCrawl {

private static String TARGET_URL = “http://databank.worldbank.org/ddp/home.do”;

public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {
//模拟一个浏览器
WebClient webClient = new WebClient();
//设置webClient的相关参数
webClient.setJavaScriptEnabled(true);
webClient.setCssEnabled(false);
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
webClient.setTimeout(35000);
webClient.setThrowExceptionOnScriptError(false);
//模拟浏览器打开一个目标网址
HtmlPage rootPage= webClient.getPage(TARGET_URL);
//获取第一个数据库
HtmlSelect hs = (HtmlSelect) rootPage.getElementById("lstCubes");
//按要求选择第一个数据库
hs.getOption(0).setSelected(true);
//模拟点击Next按钮，跳转到第二个页面
System.out.println("正在跳转…");
//执行按钮出发的js事件
ScriptResult sr = rootPage.executeJavaScript("javascript:setCubeData(2,-1,4,’/ddp');");