python 模拟浏览器selenium_python爬虫：使用Selenium模拟浏览器行为

最新推荐文章于 2023-11-30 20:30:00 发布

weixin_39867662

最新推荐文章于 2023-11-30 20:30:00 发布

阅读量121

点赞数

文章标签： python 模拟浏览器selenium

前几天有位读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬去不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。

分析

他的代码比较简单，主要有以下的步骤：使用库，打开百度贴吧的首页地址，再解析得到为标签底下的标签，最后将标签的图片保存下来。

前面提到过，有部分图片是动态加载的，那么首先我们得弄清楚，这部分图片是怎么动态加载的。在浏览器中打开百度贴吧的首页，可以明显的看到，在往下滚动滚动条的时候，当滚动到底部的时候，滚动条缩短了，并向上移动了一段距离。这个现象也正是有元素动态的添加到了文档的一个表现。动态加载数据无非就是请求，而本质上就是请求(简称 )。在谷歌浏览器中，我们可以通过开发者工具的面板来监测xhr请求。

刚打开首页时的请求，这里的请求都和要爬取的图片无关。

滚动条向下第1次滚动到底部，这里请求的是第条热门动态，包含要爬取图片。

滚动条向下第2次滚动到底部，这里请求的是第条热门动态，包含要爬取图片。并且返回的的表明没有跟多数据了。

滚动条向下第3次滚动到底部，再无请求。

解决方案

根据上面的分析，我们已经明白，单纯使用进行爬虫的时候，只能爬取到条热门动态里面的图片。为了爬取到完整的热门动态里面的图片，我们则需要模拟浏览器的滚动条滚动，让网页去触发请求更多的热门动态。

在python中，如果需要模拟浏览器的行为，可以使用库。库是一个自动化测试框架，可以用来模拟测试浏览器的各种行为，这里我们使用它来模拟浏览器打开百度贴吧的首页，并模拟滚动条向下滚动到底部的操作。

安装

下载浏览器驱动

对照自己电脑安装的浏览器和对应的版本，分别从上面的地址下载驱动文件，也可以从我的github项目中统一下载以上几个驱动(地址:https://github.com/Sesshoumaru/attachments/tree/master/Selenium%20WebDriver)。下载解压后，将所在的目录添加系统的环境变量中。当然你也可以将下载下来的驱动放到python安装目录的目录中，因为它本身已经存在于环境变量（我就是这么干的）。

使用python代码模拟浏览器行为

要使用先需要定义一个具体对象，这里就定义的时候就看你电脑安装的具体浏览器和安装的哪个浏览器的驱动。这里以火狐浏览器为例：

再模拟打开贴吧首页：

再模拟滚动条滚动到底部

最后再使用，解析图片标签：

几个注意点

必须安装浏览器和浏览器驱动，并且浏览器和浏览器驱动要配到

浏览器驱动所在的目录要在环境变量中，或者定义浏览器的时候指定驱动的路径

selenium更多用法查找元素

获取元素信息

元素交互操作

执行JavaScript

weixin_39867662

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 模拟浏览器selenium_python爬虫：使用Selenium模拟浏览器行为

前几天有位读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬去不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。分析他的代码比较简单，主要有以下的步骤：使用库，打开百度贴吧的首页地址，再解析得到为标签底下的标签，最后将标签的图片保存下来。前面提到过，有部分图片是动态加载的，那么首...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。