爬虫动态渲染页面爬取Selenium基础篇

最新推荐文章于 2024-07-30 15:54:01 发布

chengqiuming

最新推荐文章于 2024-07-30 15:54:01 发布

阅读量1.6k

点赞数 3

分类专栏： python 爬虫文章标签： Selenium python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chengqiuming/article/details/86550522

版权

一介绍

JavaScript动态渲染的页面不止Ajax这一种。

比如中国青年网（详见http://news.youth.cn/gn/），它的分页部分是由JavaScript生成的，并非原始HTML代码，这其中并不包含Ajax请求。

比如ECharts的官方实例（详见http://echarts.baidu.com/demo.html#bar-negative），其图形都是经过JavaScript计算之后生成的。

比如淘宝这种页面，它即使是Ajax获取的数据，但是其Ajax接口含有很多加密参数，我们难以直接找出其规律，也很难直接分析Ajax来抓取。

为了解决这些问题，我们可以直接使用模拟浏览器运行的方式来实现，这样就可以做到在浏览器中看到是什么样，抓取的源码就是什么样，也就是可见即可爬。这样我们就不用再去管网页内部的JavaScript用了什么算法渲染页面，不用管网页后台的Ajax接口到底有哪些参数。

Python提供了许多模拟浏览器运行的库，如Selenium、Splash、PyV8、Ghost等。

Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。对于一些JavaScript动态渲染的页面来说，此种抓取方式非常有效。

二安装ChromeDriver

1 查看版本

最低0.47元/天解锁文章

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
爬虫动态渲染页面爬取Selenium基础篇

一介绍JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网（详见http://news.youth.cn/gn/），它的分页部分是由JavaScript生成的，并非原始HTML代码，这其中并不包含Ajax请求。比如ECharts的官方实例（详见http://echarts.baidu.com/demo.html#bar-negative），其图形都是经过JavaScr...
复制链接

扫一扫

专栏目录

chengqiuming CSDN认证博客专家 CSDN认证企业博客

码龄8年

6005: 原创

2万+: 周排名

209万+: 总排名

1151万+: 访问

: 等级

12万+: 积分

3718: 粉丝

3526: 获赞

1165: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

Java实现单字段分组，多字段求和
华云之旅: bigdecimal不能为空吧？
Java实现单字段分组，多字段求和
华云之旅: 空指针异常
Activiti的附件管理实战
打工人学到啥: 我存的就是输入流了，数据库act的表也没看到有这个字段，到底存在哪里呢
Activiti的附件管理实战
打工人学到啥: Attachment createAttachment(String attachmentType, String taskId, String processInstanceId, String attachmentName, String attachmentDescription, InputStream content);存的文件在哪里
C++关于线程栈尺寸实战
hhhhhhhhhhkkkkkkkkkk: 静态数据区算是另类的堆空间，效果上相当于在main函数执行前先申请(malloc)静态数据区的空间。不随函数的退出而释放，行为与堆空间相似，区别是不能手动释放，所以也算是堆空间。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。