![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
htmlunit
待烟火清凉
让将来的你感谢现在努力的自己!!!
展开
-
htmlunit使用代理IP
有时候频繁的爬取第三方站点内容,会被站点的防火墙拦截,IP拉黑,所以这时候,就要用到代理IP,拉黑一个就换一个htmlunit实用代理的方式比较简单,WebClient重载构造方法就有提供package com.gcx.htmlunit;import java.io.IOException;import java.net.MalformedURLException原创 2017-07-11 21:01:45 · 1643 阅读 · 0 评论 -
htmlunit取消css,javascript支持
htmlunit默认是会对网页中的css,javascript解析的,对于一般的非Js加载页面采集,我们可以把css.javascript解析去掉,这样可以提高效率;但是对于Js加载的页面,就不能去掉了package com.gcx.htmlunit; import java.io.IOException;import java.net.MalformedURLException原创 2017-07-11 21:02:16 · 947 阅读 · 0 评论 -
htmlunit 模拟功能
htmlunit有强大DOM模拟操作功能 包括给Input设置数据,模拟按钮点击等;现在来用htmlunit模拟java1234博客搜索功能我们要让htmlunit 填入查询关键字 然后点击 “搜索”,然后返回查询页面内容package com.gcx.htmlunit; import java.io.IOException;原创 2017-07-11 21:02:33 · 461 阅读 · 0 评论 -
htmlunit介绍
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一采用的是Rhinojs引擎。模拟js运行常规意义上,该项目可以用来进行页面的测试工作,实现网页自动化测试,(包括JS)但是原创 2017-07-10 08:13:42 · 337 阅读 · 0 评论 -
htmlunit初识HelloWorld
首先我们新建一个Maven普通客项目在pom.xml贴上依赖 net.sourceforge.htmlunit htmlunit 2.27 然后我们写一个测试类,来解析https://www.baidu.com获取网页html以及网页文本,这里有点类似httpClient,但是底层执行过程默认多了一个js执行过程(当然htmlunit提供了原创 2017-07-10 08:13:53 · 119 阅读 · 0 评论 -
htmlunit获取指定元素
htmlunit 提供了丰富的api来获取指定元素 jsoup有的 htmlunit也有package com.gcx.htmlunit;import java.io.IOException;import java.net.MalformedURLException;import com.gargoylesoftware.htmlunit.BrowserVersion;impor原创 2017-07-10 08:14:17 · 4169 阅读 · 0 评论