Python万里长征4(非教)之webdriver下载mhtml

一、概述

1.0 研究背景

最近在研究网站仿真,供给公司内产品使用,但是现有程序(基于aiohttp的项目)无法获取php的网页,导致爬取的页面如下:

在这里插入图片描述
当然,预期是正常的什么页面,这里就不列了,可以想象电子商城,所以特此研究些新东西。

之前研究发现,浏览器访问另存为是可以保留html的,不会出现背景中的图示错误,虽然会丢失js、css、不过其他爬取也会丢失,样式、js等可以额外爬取。

这里就想使用python模拟另存为这个功能。考虑到是浏览器模型功能,所以搜了些博客,想基于下面参考文献去突破这个想法落地。

1.1 参考文献

1.0.1 debian 11上安装 Google Chrome

1.0.2 Selenium安装

1.0.3 selenium.common.exceptions.WebDriverException处理

1.0.4 保存mhtml

1.2 文献综述

根据文献,可以解决一些问题,进入到
在这里插入图片描述
在这里插入图片描述

二、详情

2.1 解决无法爬取的链接

www.lxnews.cn 拿这个网站举例,它的页面logo是无法在html源码中查询到的,如这个链接。
http://www.lxnews.cn/images/zy_logo.png

但是在mhtml中
在这里插入图片描述

这个链接完美的在这个Content-Location 中

对比源码page_source在下图看,明显没有mhtml中的logo链接。
在这里插入图片描述

2.2 爬取mhtml

在这里插入图片描述

这样mhtml 就这样保存下来了。

当然,如果只需要其中的链接,这个文件可以不必保存。只需要把resp(是dict字典类型)中的data中的需要数据过滤出来即可。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值