htmlunit
andybbc
这个作者很懒,什么都没留下…
展开
-
htmlunit 执行 javascript 时,不下载整个页面只返回url
htmlunit 简介:htmlunit 是一款开源的 java 页面分析工具,启动 htmlunit 之后,底层会启动一个无界面浏览器,用户可以指定浏览器类型:firefox、ie 等,如果不指定,默认采用 INTERNET_EXPLORER_7:WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);通过简原创 2016-01-28 13:39:55 · 1802 阅读 · 0 评论 -
解决htmlunit的webclient对象在多线程环境下的共享问题
HtmlUnit在多线程环境下怎么使用才能避免网页抓取失败的问题。下面浅谈该问题的解决办法。导致这个问题的原因其实蛮简单,举个例子来说,A线程正在使用一个WebClient对象抓取网页,在整个抓取流程结束之前,当前线程被CPU挂起,因此线程B被激活,然后B使用正在被A使用的WebClient对象进行其他网页的抓取工作,那么这时,WebCLient对象将清除刚刚未完成的工作遗留的数据,以此类推,原创 2016-01-28 13:51:27 · 4416 阅读 · 2 评论