关闭
当前搜索:

爬虫的自我解剖(抓取网页HtmlUnit)

网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下: 1 2 3 4 final WebClient webClient=new WebClient(); final HtmlPage page=webClient.getPage(...
阅读(620) 评论(0)

模拟浏览器的神器 - HtmlUnit

随着Web的发展,RIA越来越多,JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战,解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。   好在有一个Java开源项目HtmlUnit,它能模拟Firefox、IE、Chrome等浏览器,不但可以用来测试Web应用,还可以用来解析包含JS的页面以提取信息。   下面看看Ht...
阅读(1346) 评论(0)
    个人资料
    • 访问:8552654次
    • 积分:72222
    • 等级:
    • 排名:第24名
    • 原创:258篇
    • 转载:2779篇
    • 译文:3篇
    • 评论:750条
    文章分类
    最新评论