一、WEB测试工具介绍
httpunit是一个可以模拟浏览器的集成工具,它可以让你在不需要浏览器的情况下模拟浏览器的浏览行为,该工具是junit测试工具下面的一个子框架,主要用来做web端测试使用,它的诞生主要是解决junit框架没法对远程web内容进行测试的问题。
httpunit的出现解决了我们能够绕过浏览器直接从程序中访问我们的站点,该工具使用Java语言编写完成,能够很好的跟Java程序相互协作,丰富的API能够能够轻易地与Java程序和服务器之间进行简易的交互,服务端返回的结果可以当作DOM元素进行处理。
目前httpunit版本已经更新到1.7,下载地址如下:
二、网络爬虫功能介绍
由于httpunit工具能够模拟浏览器的行为,并且将结果当成Dom元素进行解析,还能够模拟HTTP请求认证、表单提交、cookie登录页面重定向等,所以该技术还通常用于网络爬虫的实现,动态抓取网页元素,动态解析页面标签。
三、httpunit与jsoup爬虫功能比较
jsoup最大的优势就是它可以快速的爬取静态页面儿,并且能够将静态页面里面的标签迅速识别,像jquery一样快速的解析页面标签内容。
jsoup碰到动态页面有一定的弊端,因为动态页面的内容是通过浏览器浏览ajax动态访问后台服务器,然后返回内容之后使用js脚本解析内容到页面上,jsoup无法做到解析动态内容。