python模拟浏览器_Python爬虫:使用Selenium模拟浏览器行为！

最新推荐文章于 2024-05-29 14:26:04 发布

患上汉子癌

最新推荐文章于 2024-05-29 14:26:04 发布

阅读量3.5k

点赞数

文章标签： python模拟浏览器

本文链接：https://blog.csdn.net/weixin_42356145/article/details/113313643

版权

本文介绍了如何使用Selenium模拟浏览器行为，解决因动态加载导致的爬虫数据不完整问题。通过分析百度贴吧首页的xhr请求，揭示了在页面滚动时如何触发更多数据加载。通过安装和配置浏览器驱动，如火狐或谷歌，并使用Python代码，结合Selenium和BeautifulSoup，实现滚动条滚动以抓取全部热门动态的图片。

摘要由CSDN通过智能技术生成

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。

分析

他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'
}

data=requests.get("https://tieba.baidu.com/index.html",headers=headers)
html=BeautifulSoup(data.text,'lxml')

前面提到过，有部分图片是动态加载的，那么首先我们得弄清楚，这部分图片是怎么动态加载的。在浏览器中打开百度贴吧的首页，可以明显的看到，在往下滚动滚动条的时候，当滚动到底部的时候，滚动条缩短了，并向上移动了一段距离。这个现象也正是有DOM元素动态的添加到了html文档的一个表现。动态加载数据无非就是ajax请求，而ajax本质上就是XMLHttpRequest请求(简称xhr)。在谷歌浏览器中，我们可以通过开发者工具的netwo

最低0.47元/天解锁文章

患上汉子癌

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python模拟浏览器_Python爬虫:使用Selenium模拟浏览器行为！

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。分析他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片...
复制链接

扫一扫