java模拟浏览器包htmlunit,selenium
发现一个很不错的模拟浏览器包htmlunit,它可以直接执行访问网站地址,并执行相应的JavaScript脚本;这个功能对于网站爬虫有很大的帮助,一些网站使用了ajax,如果使用简单的http访问只能抓到原始的html源码,但对于页面内执行的ajax却无法获取;使用这个包后,可以将执行ajax后的html源码一并抓取下来。网站地址:http://htmlunit.sourceforge.ne...
原创
2012-05-27 16:49:21 ·
336 阅读 ·
0 评论