通过Selenium-java进行渲染获取页面内容案例(Selenium+firefox版本问题已解决)
针对爬虫获取异步请求的数据时,往往比较麻烦,需要分析异步请求的路径,再次发起请求获取数据(可能是JSON等)。另外还有一种方式是通过模拟浏览器内核获取动态加载的数据,使得动态页面的数据获取与解析同静态HTML一样方便。目前对于Java爬虫而言,最常用的浏览器内核模拟工具是做自动测试用的Selenium。然而,由于浏览器的不断升级,很多时候在配置Selenium的版本与浏览器(还有浏览器的驱动)
原创
2018-01-04 22:45:40 ·
3266 阅读 ·
0 评论