- 博客(1)
- 收藏
- 关注
转载 使用HtmlUnit做爬虫
一 概述 HttpClient适合处理静态资源,网络爬虫等类似应用很大程度需要处理动态网页(内容有js填充,如百度图片,body里基本没有数据,碰到最麻烦的是新浪微博列表页)。将网页下载后,结合JS和Dom模型还原网页,我目前还未攻破,但在下载层还原网页,HtmlUnit是一种解决方案,虽然对JS的支持还是不完美。 HtmlUnit其实是自动化测试工具,集成了
2016-11-29 11:04:04 1404
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人