爬虫实例（5）网页动态内容的识别

最新推荐文章于 2024-08-13 17:55:51 发布

演技拉满的白马

最新推荐文章于 2024-08-13 17:55:51 发布

阅读量1.2k

点赞数 2

分类专栏：爬虫文章标签：爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34786604/article/details/126750292

版权

爬虫专栏收录该内容

13 篇文章 9 订阅

订阅专栏

爬虫实例（5）动态网页

对于静态网页，我们只需要访问对应的URL就可以获得全部的数据了，动态网页则没有这么简单。
比如这个网站，可谓秀中秀之超级秀！！！

edx
不愧是世界顶尖大学联盟的公开课平台，代码就是牛，操作就是骚。。。

本节目标：网页动态内容
本节内容：理解网页动态内容
本节技术点：浏览器观察并理解网页的动态内容

本节阅读需要（15）min。
本节实操需要（15）min。

文章目录

爬虫实例（5）动态网页
前言
一、动态网页的类型
- ajax
- js动态网页
二、判断动态加载
三、实例讲解
总结

前言

所谓的动态网页，是指跟静态网页相对的一种网页编程技术。静态网页，随着html代码的生成，页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然，页面基础的代码虽然没有变，但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。

所以动态网页的内容是需要一定的条件才会有的。很多数据无法直接访问。

凡是结合了HTML以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页。

一、动态网页的类型

ajax

具体的内容见另一篇博客。
动态网页ajax

js动态网页

其实和ajax是很难区分开来的。

js实现的动态网页，一般指的是不依赖于和服务器交换数据的js操作而来的网页。

js动态网页，一般这种可能就是一些比如提醒信息，画廊，动画卡通，页面特效之类。
一般都是数据其实一次都加载完了，但是还需要各种根据用户操作变化而变化的呈现方式的处理。

当然也有可能很复杂。会改变链接，从而引入大量的新的内容。不过是少数。。。

二、判断动态加载

说了那么多，如何快速的判断一个网页是不是动态加载的呢？如何判断一段内容是不是动态加载的呢？

根据程序get请求的返回值

F12打开一个网页如果HTML内容很多，还有不停跳动的元素，网页大概率就是动态加载的。

这个时候我们用程序试着请求，查看返回的text如果发现内容明显缩短，那就断定网页是动态加载的。
比对目标内容在HTML有没有就可以确定内容是不是动态加载的。

根据浏览器的最终返回值

最终返回值也就是查看器那个窗口的HTML结果。

以edx为例

不要忘记浏览器才是最好的前端解释器！！！

在这里插入图片描述
我们可以看到有很多的flex和event这些都是动态的过程。

根据浏览器的网络值（推荐）

相当于观察浏览器的返回的过程值
在这里插入图片描述
记得的查看网络值的时候要重新加载。
一般最开始的是我们请求的主页。

这个我时候我们就会发现这里的HTML与上面最终的HTML差别特别的大。
这就说明这个网页大量的用到了ajax，和js技术。。。

火狐浏览器比较好玩。关闭原始时候他会解析一下原始的，当作静态处理。还渲染了一下。。
在这里插入图片描述
所以大家可以猜猜用了多少ajax技术啊。。。

显然后面的那么多的都是追加过来的信息。

根据二次返回值XHR

F12打开调试，查看网络选项。然后如下：

在这里插入图片描述
返现了json数据，所以网页用到了ajax技术。
至于哪些内容用到了，需要查看返回的json内容了。都在里面。
但是寻找需要花费一番功夫，一般浏览器都有查找快捷键ctrl+F，可以快一点。

三、实例讲解

我们判断从edx的搜索页访问具体的课程页的过程中遇到了哪些动态内容吧。
我们的[目标页]

搜索页

搜索页
判断过了，如上肯定是用到了的。

学科页

通过网络返回内容的观察，多刷新几次，看清楚。
我们发现从搜索页到学科页用的是js，重定向了，url也改变了。这不是ajax

搜索工商管理，然后展示所有。
工商管理

但是同一个页面刷新，会发现不断的有返回值，对应的是画廊的内容。
在这里插入图片描述
这些明显是ajax，页面不变，内容不断冒出来。。。

课程页

课程主页
课程页链接会要求登录。尽管我们可以post提交登陆信息，但是这一节只谈识别。。。

和上面两个类似。。。

但是js和ajax可谓铺天盖地。。。好的学校就是牛
在这里插入图片描述

总结

查看xhr的时候要多看几个json数据。
一般有用的信息可能是分批加载到页面框架上的，所以每个网络返回数据都要留心。
不过可以根据类型和名称猜一猜。。。

简单总结：
1、JS是一门前端语言。
2、Ajax是一门技术，它提供了异步更新的机制，使用客户端与服务器间交换数据而非整个页面文档，实现页面的局部更新。
3、jQuery是一个框架，它对JS进行了封装，使其更方便使用。jQuery使得JS与Ajax的使用更方便

这些网页是纯英文的，别告诉我看不懂，那就尴尬了。。。
不过我想能看我文章的，水平不会那么差，哈哈哈哈哈。

演技拉满的白马

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

演技拉满的白马 CSDN认证博客专家 CSDN认证企业博客

码龄9年

55: 原创

39万+: 周排名

107万+: 总排名

10万+: 访问

: 等级

733: 积分

366: 粉丝

142: 获赞

29: 评论

248: 收藏

私信

关注

热门文章

分类专栏

python 31篇
运维 5篇
其他 1篇
爬虫 13篇
自动化办公 7篇
工具 4篇

最新评论

Python爬虫(5)css选择器
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
巧妙使用vscode绘制mindmap
qingyun_weiyi: 他的绘制窗口有时候不自己打开怎么办？
巧妙使用vscode绘制mindmap
Scarlett2025: 我在Ubuntu18.04系统的vscode上安装了vscode-mindmap，可以实现导出图片功能。我之前也以为是没有导出功能，但实际上是我没看到。我用了两个屏幕，其中一个屏幕能够看到【保存】和【导出】按钮，另一个屏幕看不到
巧妙使用vscode绘制mindmap
clisten_: 已经放弃此插件了
巧妙使用vscode绘制mindmap
Scarlett2025: 你是在windows下安装的vscode-mindmap吗？我在ubuntu下安装的vscode，没有导出的选项

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

演技拉满的白马 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。