Python动态爬取网页信息

最新推荐文章于 2024-05-12 16:44:53 发布

sl01224318

最新推荐文章于 2024-05-12 16:44:53 发布

阅读量823

点赞数

分类专栏：爬虫文章标签： python 爬虫动态加载

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sl01224318/article/details/117880194

版权

本文介绍了如何处理动态加载的网页数据，通过分析网页源代码、使用浏览器开发者工具抓包，找到动态加载数据的真实URL。接着讲述了动态数据的解析方法，并通过实战案例展示了如何构造请求获取企业详情信息。最后总结了动态加载数据的判断和抓取关键步骤。

摘要由CSDN通过智能技术生成

目录

什么是动态加载

动态加载数据获取

动态数据解析

背景

在日常的爬虫练习时有些网站的数据信息是静态的，也就是说我们通过浏览器窗口中的“检查源代码”窗口就可以获取到（图1-1）。

但是也有相当一部分网站通过上述方法是获取不到的，如图1-2所示，打开该链接http://scxk.nmpa.gov.cn:81/xk/，该网页的的源代码中并没有我需要的数据信息“广东妮色生物科技有限公司（图1-3）”内容，

图1-2网页源代码

图1-3 网页信息

此时再进一步进行分析，我们使用谷歌开发者工具去进行一个抓包，通过分析可知我们需要的数据并不在http://scxk.nmpa.gov.cn:81/xk/这个链接中，而是在

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
5
评论
Python动态爬取网页信息

背景在日常的爬虫练习时有些网站的信息是静态的，也就是说我们通过浏览器窗口中的“检查”窗口就可以获取到
复制链接

扫一扫

专栏目录

sl01224318 CSDN认证博客专家 CSDN认证企业博客

码龄6年

152: 原创

5万+: 周排名

98万+: 总排名

42万+: 访问

: 等级

3025: 积分

127: 粉丝

181: 获赞

116: 评论

877: 收藏

私信

关注

分类专栏

python 34篇
Selenium 9篇
爬虫 24篇
Xpath 1篇
jemter 10篇
Pytest 12篇
MySQL 10篇
数据分析 12篇
程序人生 8篇
App自动化 5篇
机试练习 13篇

最新评论

TypeError: argument of type ‘float‘ is not iterable报错的解决方法
Chadiann: 感谢大神，解决问题，本来是文本，但是是float，我就在前面转化了为str就好了
设置jupyter notebook文件保存位置
Mian_Rainy: https://blog.csdn.net/qq_42711359/article/details/98305578 不对，应该是参考这篇
设置jupyter notebook文件保存位置
Mian_Rainy: 为啥它不显示链接啊我靠，为啥是网页链接的文字
设置jupyter notebook文件保存位置
Mian_Rainy: 配置Jupyter Notebook 找不到“#c.NotebookApp.notebook_dir = ”怎么办？ Ctrl + F，然后输入“the directory”，pycharm会直接定位到那一行。如果更改之后还是没用，可以参考这篇csdn的文章： https://blog.csdn.net/weixin_44591989/article/details/134362339 这篇写得挺详细的
设置jupyter notebook文件保存位置
Mian_Rainy: 就在找你这条呢，感谢！

大家在看

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。