python爬取今日头条瀑布流_连续动作:滚屏采集瀑布流网页—以头条新闻为例

常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就是瀑布流网页。爬虫只能采集网页上已经加载显示的内容,而瀑布流网页的内容不是一次性加载的,每滚屏一次才会显示更多的内容,所以采集瀑布流网页需要用到滚屏动作。一、操作步骤下面用今日头条网作为案例,给大家演...
摘要由CSDN通过智能技术生成

常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就是瀑布流网页。

爬虫只能采集网页上已经加载显示的内容,而瀑布流网页的内容不是一次性加载的,每滚屏一次才会显示更多的内容,所以采集瀑布流网页需要用到滚屏动作。

一、操作步骤

下面用今日头条网作为案例,给大家演示一遍用滚屏动作采集瀑布流网页,操作步骤如下:

Tips:本文讲解的滚屏动作和滚轮动作是有区别的,滚屏相当于滚动网页最右边的滚动条;而滚轮是仿真鼠标轮子的滚动,所以滚轮动作可以实现一些特殊需求,如下:网页内部局部区域的滚动条

翻页无法激发加载的网页只能用滚轮仿真

二、案例规则+操作步骤采集规则:今日头条_推荐

样本网址:http://www.toutiao.com/

采集内容:每一条新闻的新闻标题、评论数、发布时间、链接

第一步:打开网页

1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

注意:这里的截图和文字说明都是集搜客网络爬虫版本,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值