我们在Web Scraper 翻页——控制链接批量抓取数据一文中,介绍了控制网页链接批量抓取数据的办法。
但是你在预览一些网站时,会发现随着网页的下拉,你需要点击类似于「加载更多」的按钮去获取数据,而网页链接一直没有变化。
这时,控制链接批量抓去数据的方案失效了,所以我们需要模拟点击「加载更多」按钮,去抓取更多的数据。
![9c10edcbf90571cbc2e3a49317c890e1.gif](https://img-blog.csdnimg.cn/img_convert/9c10edcbf90571cbc2e3a49317c890e1.gif)
今天我们讲的,就是利用 web scraper 里的 Element click 模拟点击「加载更多」,去加载更多的数据。
这次的练习网站,我们拿少数派网站的热门文章作为我们的练习对象,对应的网址链接是:
https://sspai.com/tag/%E7%83%AD%E9%97%A8%E6%96%87%E7%AB%A0#home
为了复习上一个小节的内容,这次我们模拟点击翻页的同时,还要抓取多条内容,包括作者、标题、点赞数和评论数。
![81f7628450ae098f5bbca31094ae253a.png](https://img-blog.csdnimg.cn/img_convert/81f7628450ae098f5bbca31094ae253a.png)
下面开始我们的数据采集之路。
1.创建 sitmap
老规矩,第一步我们先创建一个少数派的 sitmap,取名为 sspai_hot,起始链接为:
https://sspai.com/tag/%E7%83%AD%E9%97%A8%E6%96%87%E7%AB%A0#home
![5c4f2d1b4ee388c533e2204bbc12727d.png](https://img-blog.csdnimg.cn/img_convert/5c4f2d1b4ee388c533e2204bbc12727d.png)
2.创建容器的 selector
通过上一节的内容,我们知道想在 web scraper 里想抓取多种类型的数据,必须先创建一个容器(container),这个容器包含多种类型的数据,所以我们第二步就是