Java 结合Jsoup 和 htmlunit(WebClient)对网页URL对应的网页进行爬取解析获取自己所需要的数据信息
最近在做一个项目,通过扫描营业执照的二维码得到一条URL链接。一条链接跳转后会进入企业信息公示页面,需要通过这条链接获取需要的信息(公司名,法人,信用代码等等)。在网上搜索了很多,也找到了很多方法,但是都不能爬取到。一般都是521 报错,没有跨域,网页使用的是JS动态加载,我们获取的只是静态信息等等。所以种种方法都是不可行的。最后采用的方案是:WebClient 模拟一个浏览器客户端,设置JS动态...
原创
2018-06-07 16:57:38 ·
8138 阅读 ·
9 评论