Selenium解决网页懒加载的问题

最新推荐文章于 2024-07-19 03:05:27 发布

嘘，淡定点

最新推荐文章于 2024-07-19 03:05:27 发布

阅读量2.2k

点赞数 3

分类专栏：数据采集文章标签： python selenium html

本文链接：https://blog.csdn.net/weixin_37850160/article/details/107912369

版权

数据采集专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在进行爬虫等数据采集任务，将爬取的页面保存成mhtml也面的时候，往往会遇到一些页面，存在懒加载的问题，这样就算将网页保存下来，里面的图片等都会丢失。这里介绍使用自动化测试工具解决懒加载的问题。

首先，懒加载是什么？其实网上有很多的专业介绍，这里我就用一句话概括，为了减轻服务器的压力，用户访问页面的时候，不会全部将页面加载，而是当用户浏览到哪，加载到哪。这样的结果就是当你保存页面的时候，有些数据是拿不到的，因为你没浏览到某个地方，这个地方的数据是无法加载的。

解决思路:用Selenium工具模拟用户浏览操作(也就是下拉页面)，来让所有的数据都完全加载然后再保存数据。这样得到的mhtml页面就是完整图片数据的页面。

from selenium import webdriver
from time import sleep
driver = webdriver.Chrome("chromedriver.exe")
driver.get(url)
#实现滚轮向下滑动

search_html = driver.find_element_by_tag_name('html')#获取对应标签
height=search_html.size['height']#获取html页面的总高度

for i in range(700,height,700):
    s=f'window.scrollBy(0,700)'#每次划700的单位
    driver.execute_script(s)   #向下滚动，0在第一位是向上向下，0在第二位是向左向右，负号决定具体方向
    sleep(1.5)

#执行 Chome 开发工具命令，得到mhtml内容
res = driver.execute_cdp_cmd('Page.captureSnapshot', {})

with open('xxx.mhtml', 'w') as f:
    f.write(res['data'].replace('\r\n', '\n'))#后边一定要将\r\n替换成\n不然不会变成mhtml格式

注意：html和mhtml是两个东西，一个只包含静态页面，但其中的css,js之类的不存在；另外一个是将所有的数据放到一个文件中保存。切记