spider
文章平均质量分 54
ThanksCreek
这个作者很懒,什么都没留下…
展开
-
使用selenium抓取JS动态生成的页面
在抓取网页数据时,传统jsoup方案只能对静态页面有效,而有些网页数据往往是js生成的,所以这时候需要其它的方案。首先的思路是分析js程序,对js的请求进行再次抓取,这适合于特定的页面抓取,要做到对不同目标URL的通用性,比较麻烦。第二种思路,也是比较成熟的做法是利用第三方的驱动渲染页面,然后下载。这里介绍一下第二种实现思路。Selenium是一个模拟浏览器的自动化测试工具,它原创 2015-07-31 19:55:01 · 13098 阅读 · 0 评论 -
使用phantomjs抓取JS动态生成的页面
关于phantomjsphantomjs实现了一个无界面的webkit浏览器。虽然没有界面,但dom渲染、js运行、网络访问等API都很完整。可以利用phantomjs来下载js生成的页面。下载phantomjs(http://phantomjs.org/download.html)。解压到任意目录,在Windows下将包含phantomjs.exe的目录添加到系统路径。Linux下 phantom原创 2015-08-29 21:20:45 · 6662 阅读 · 0 评论 -
建立https链接的SLL验证证书失效问题
爬取网页遇到的目标站点证书不合法问题。使用jsoup爬取解析网页时,出现了如下的异常情况。javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBu原创 2016-10-14 11:33:18 · 8084 阅读 · 1 评论