#1024程序员节#
通过java实现爬虫动态获取网站数据
通过上次demo的实现,是我对于爬虫有了一定的了解与认识,并进行了深入的研究与学习,成功的动态获取https://saudi.souq.com/中更多的数据。
上次demo之后,我发现每次通过商品列表获取到的数据有限,只有那么几个,我就在想如何可以实现自动点击商品,进入到商品详情页面,获取更多数据,然后再返回商品列表页面。这样形成一个循环,用来获取跟多的数据。经过思考与尝试,终于实现此功能。
1.创建maven项目
首先还是先创建一个maven项目。
2.引入相关jar包
因为工作原因,还没来得及实现将数据导出为excel文件,所以还是只有控制台输出。引入jar包如下。
3.代码编写
在此次代码中加入了自动跳转进入商品详情页,获取数据之后再返回商品列表页,并进行循环获取。
代码中最外层for循环的作用是实现翻页操作,当第一页商品的数据获取结束之后,跳转到第二页商品列表页,继续循环获取商品详细数据。