使用selenium抓取网页内容

最新推荐文章于 2024-08-13 20:32:54 发布

stigin

最新推荐文章于 2024-08-13 20:32:54 发布

阅读量9.8k

点赞数

文章标签： selenium javascript

本文链接：https://blog.csdn.net/stigin/article/details/73381561

版权

本文档记录了使用selenium抓取动态加载网页内容的过程，特别是针对百度文库的案例。由于网页内容分页且动态加载，selenium通过javascript与浏览器交互，模拟用户滚动行为来获取完整信息。文中提到了selenium的两种滚动方式，一种是滚动到特定位置，另一种是模拟用户自然滚动。

摘要由CSDN通过智能技术生成

关于适用selenium抓文档的一个简单记录，以百度文库为例。selenium的原理大概是：利用javascript语句与浏览器驱动交互，从而控制浏览器操作网页的行为。

而使用selenium实现爬虫一般是因为网页是动态加载的，目标内容需要经过一定操作才能在元素审查中出现。以百库文库为例（https://wenku.baidu.com/view/217d303c76eeaeaad0f33075.html），较大的文档的展示一般是通过分页展示，并且每一页的内容不会全部加载，要在浏览到当前页才会加载当前几页的内容。像这个文档，一次显示五十页，但是只会加载当前浏览进度处的三叶内容。因此要自动抓取这个内容需要实现滚动功能。

selenium有两种滚动方式：

第一种，滚动到特定位置“：

driver.execute_script('var q=document.body.scrollTop=3500') 滚动到页面的3500像素处（从上往下）（通过网页审查可以看到整个网页的像素大小）

第二种，以当前位置为参照，滚动一定距离：

最低0.47元/天解锁文章

stigin

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫