WebCollector爬取JS加载的数据

最新推荐文章于 2022-11-24 19:05:38 发布

CrazyL-

最新推荐文章于 2022-11-24 19:05:38 发布

阅读量1.8k

点赞数

分类专栏：爬虫

爬虫专栏收录该内容

14 篇文章 0 订阅

订阅专栏

转载：
http://datahref.com/archives/30

需引入selenium

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-java</artifactId>
    <version>2.44.0</version>
</dependency>

使用Selenium等模拟浏览器进行异步数据的爬取，效率较低，对于大多数情况，如果不是很麻烦，尽量想办法分析网页的Ajax请求，找出Ajax请求数据的规律。对于较简单的Ajax，即单纯的http get请求，找到请求URL的拼接规律，生成URL，将URL作为爬虫的种子，即可爬取Ajax请求结果。对于较为复杂的Ajax请求，例如需要使用http post方法的请求，可以自己构架爬虫的Requester。很多瀑布流的网站都可以通过简单地Ajax请求分析方法轻松抓取到数据。