Python万里长征4（非教）之webdriver下载mhtml

大隐、禅

已于 2023-04-28 16:27:51 修改

阅读量724

点赞数

分类专栏：万里长征文章标签： python 开发语言

于 2022-07-06 09:32:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38392612/article/details/125500278

版权

万里长征专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

一、概述

1.0 研究背景

最近在研究网站仿真，供给公司内产品使用，但是现有程序（基于aiohttp的项目）无法获取php的网页，导致爬取的页面如下：

在这里插入图片描述
当然，预期是正常的什么页面，这里就不列了，可以想象电子商城，所以特此研究些新东西。

之前研究发现，浏览器访问另存为是可以保留html的，不会出现背景中的图示错误，虽然会丢失js、css、不过其他爬取也会丢失，样式、js等可以额外爬取。

这里就想使用python模拟另存为这个功能。考虑到是浏览器模型功能，所以搜了些博客，想基于下面参考文献去突破这个想法落地。

1.1 参考文献

1.0.1 debian 11上安装 Google Chrome

1.0.2 Selenium安装

1.0.3 selenium.common.exceptions.WebDriverException处理

1.0.4 保存mhtml

1.2 文献综述

根据文献，可以解决一些问题，进入到
在这里插入图片描述

二、详情

2.1 解决无法爬取的链接

www.lxnews.cn 拿这个网站举例，它的页面logo是无法在html源码中查询到的，如这个链接。
http://www.lxnews.cn/images/zy_logo.png

但是在mhtml中
在这里插入图片描述

这个链接完美的在这个Content-Location 中

对比源码page_source在下图看，明显没有mhtml中的logo链接。
在这里插入图片描述

2.2 爬取mhtml

在这里插入图片描述

这样mhtml 就这样保存下来了。

当然，如果只需要其中的链接，这个文件可以不必保存。只需要把resp(是dict字典类型)中的data中的需要数据过滤出来即可。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python万里长征4（非教）之webdriver下载mhtml

webdriver 下载mhtml
复制链接

扫一扫

专栏目录

博客等级

码龄7年

30
原创

127
点赞

109
收藏

131
粉丝

关注

私信

热门文章

分类专栏

最新评论

引用与浅拷贝与深拷贝
狮子也疯狂: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文，大佬的文章让我对这领域的技术问题有了更深入的了解，尤其是大佬提到的那些“坑点”，我相信能够在实际应用中避免或解决很多问题。谢谢大佬的分享，期待大佬的更多精彩文章，让我们共同学习、进步。
pytorch和tensorflow2中的模块函数名称记录（混个脸熟）
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
python万里长征1（非教）[编码，解码]
大隐、禅: websocket 用到django3+channels+gunicorn+uvloop+nginx，不用的dwebsocket了。channels记得用3版本，2.几版本貌似和vue不适配不知道咋回事，异步关键字顺便需要使用，学习下挺好

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。