HttpUnit模拟按钮点击以及爬虫实现(模拟百度搜索)
HttpUnit 本质上相当于一个后台的透明的浏览器引擎,使用java中的HttpUnit可以实现模拟点击按钮,抓取网页元素,实现动态爬虫,之前一直使用jsoup进行爬虫,不过这次爬取一个生物论坛时候,需要动态处理,发现了httpUnit这个好的框架。
1.几行代码实现获取网页源代码。
```
final WebClient webClient=new WebClient();
final HtmlPage page=webClient.getPage("http://www.baidu.com");
System.out.println(page.asText()); //asText()是以文本格式显示
System.out.println(page.asXml()); //asXml()是以xml格式显示
webClient.closeAllWindows();
```
2.模拟文本框与模拟按钮提交,下面我们模拟实现模拟百度搜索关键字。
```java
// 得到浏览器对象,直接New一个就能得到,现在就好比说你得到了一个浏览器了
WebClient webclient = new WebClient();
// 这里是配置一下不加载css和javaScript,因为httpunit对javascript兼容性不太好
webclient.getOptions().setCssEnabled(false);
webclient.getOptions().setJavaScriptEnab