python爬取今日头条瀑布流_连续动作：滚屏采集瀑布流网页—以头条新闻为例

最新推荐文章于 2022-08-17 09:40:37 发布

weixin_39564755

最新推荐文章于 2022-08-17 09:40:37 发布

阅读量929

点赞数

文章标签： python爬取今日头条瀑布流

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39564755/article/details/111430745

版权

常见的网页大多数在页面下方会有翻页的按钮，比如“下一页”、“加载更多”，这类网页设置翻页就可以搞定，但是瀑布流网页没有这些按钮，而是随着鼠标滚动会不停的加载更多内容，这种很长很长的没有翻页按钮的网页就是瀑布流网页。爬虫只能采集网页上已经加载显示的内容，而瀑布流网页的内容不是一次性加载的，每滚屏一次才会显示更多的内容，所以采集瀑布流网页需要用到滚屏动作。一、操作步骤下面用今日头条网作为案例，给大家演...

摘要由CSDN通过智能技术生成

常见的网页大多数在页面下方会有翻页的按钮，比如“下一页”、“加载更多”，这类网页设置翻页就可以搞定，但是瀑布流网页没有这些按钮，而是随着鼠标滚动会不停的加载更多内容，这种很长很长的没有翻页按钮的网页就是瀑布流网页。

爬虫只能采集网页上已经加载显示的内容，而瀑布流网页的内容不是一次性加载的，每滚屏一次才会显示更多的内容，所以采集瀑布流网页需要用到滚屏动作。

一、操作步骤

下面用今日头条网作为案例，给大家演示一遍用滚屏动作采集瀑布流网页，操作步骤如下：

Tips：本文讲解的滚屏动作和滚轮动作是有区别的，滚屏相当于滚动网页最右边的滚动条；而滚轮是仿真鼠标轮子的滚动，所以滚轮动作可以实现一些特殊需求，如下：网页内部局部区域的滚动条

翻页无法激发加载的网页只能用滚轮仿真

二、案例规则+操作步骤采集规则：今日头条_推荐

样本网址：http://www.toutiao.com/

采集内容：每一条新闻的新闻标题、评论数、发布时间、链接

第一步：打开网页

1.1打开集搜客网络爬虫，输入网址并Enter，加载出网页后再点击“定义规则”按钮，看到一个浮窗显示出来，称为工作台，在上面定义规则；

注意：这里的截图和文字说明都是集搜客网络爬虫版本，如果您安装的是火狐插件版，那么就没有“定义规则”按钮，而是应该运行MS

最低0.47元/天解锁文章

weixin_39564755

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬取今日头条瀑布流_连续动作：滚屏采集瀑布流网页—以头条新闻为例

常见的网页大多数在页面下方会有翻页的按钮，比如“下一页”、“加载更多”，这类网页设置翻页就可以搞定，但是瀑布流网页没有这些按钮，而是随着鼠标滚动会不停的加载更多内容，这种很长很长的没有翻页按钮的网页就是瀑布流网页。爬虫只能采集网页上已经加载显示的内容，而瀑布流网页的内容不是一次性加载的，每滚屏一次才会显示更多的内容，所以采集瀑布流网页需要用到滚屏动作。一、操作步骤下面用今日头条网作为案例，给大家演...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。