Python学习笔记(17)掌握JS动态网页信息采集

最新推荐文章于 2024-07-30 15:54:01 发布

原创

最新推荐文章于 2024-07-30 15:54:01 发布 · 570 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Python #数据挖掘 #爬虫

本文详细介绍了Python爬虫处理JS动态网页的方法，包括连续动作的适用范围、动作类型（如悬浮、点击、滚屏等）、如何使用连续动作以及连续动作的循环执行。通过设置连续动作模拟用户操作，实现对动态加载内容的采集。

下面会从连续动作的适用范围、动作类型、如何使用连续动作、连续动作的循环执行说明等四个方面，全面地介绍连续动作的知识点。

一、连续动作的适用范围

越来越多的网页使用了JS动态技术，即网页信息不是立马显示出来的，而是要经过点击或输入之类的动作才能浏览到想要的信息，例如条件筛选、输入关键词搜索、滚屏加载、点击目录等等，而这类网页通常是没有独立网址的，不能对它直接采集，只能设置连续动作来实现相应鼠标动作的自动执行，从而加载出想要的信息然后采集下来。

动作前后的网页地址没有变化，即想要采集的网页信息是没有独立的网址入口。
需要连续多次的鼠标动作（点击、输入、筛选等等）才能浏览到想要的网页信息。

二、连续动作的动作类型

连续动作类型是逐步增加的，截止目前的爬虫，已经实现了10种类型，后续版本还会持续增加新类型。下面是各个动作类型的使用场景简介：

1，悬浮：把鼠标移动到网页上的某些内容上，就会弹出一个窗口，想要采集弹窗里面的信息，就要设置悬浮动作。

2，点击：如果要点击网页上的按钮或者是超链接，就要设置点击动作。

3，双击：与点击动作相似，是连点两下鼠标。

4，滚屏：对于页面很长甚至是加载不到尽头的瀑布流网页，想要采集到更多信息，就要设置滚屏动作，尽可能地滚屏加载出更多信息。

5，输入：想要在搜索框上自动输入关键词，以获取到搜索结果

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。