常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就是瀑布流网页。
爬虫只能采集网页上已经加载显示的内容,而瀑布流网页的内容不是一次性加载的,每滚屏一次才会显示更多的内容,所以采集瀑布流网页需要用到滚屏动作。
一、操作步骤
下面用今日头条网作为案例,给大家演示一遍用滚屏动作采集瀑布流网页,操作步骤如下:
Tips:本文讲解的滚屏动作和滚轮动作是有区别的,滚屏相当于滚动网页最右边的滚动条;而滚轮是仿真鼠标轮子的滚动,所以滚轮动作可以实现一些特殊需求,如下:网页内部局部区域的滚动条
翻页无法激发加载的网页只能用滚轮仿真
二、案例规则+操作步骤采集规则:今日头条_推荐
样本网址:http://www.toutiao.com/
采集内容:每一条新闻的新闻标题、评论数、发布时间、链接
第一步:打开网页
1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;
注意:这里的截图和文字说明都是集搜客网络爬虫版本,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS