爬取图片操作（从指定网页中提取图片地址并下载保存图片）

行走的表情包2333

已于 2023-10-07 11:18:51 修改

阅读量4k

点赞数 7

文章标签： python 大数据

于 2023-10-06 19:43:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73862068/article/details/133618057

版权

本文介绍了如何使用Python编写一个简单的爬虫，通过get_html函数获取网页源代码，解析图片URL，利用requests获取图片二进制内容，然后保存到本地。主要涉及到了网络请求、HTML解析和文件操作等技术。

摘要由CSDN通过智能技术生成

目录

详细操作步骤

导入相应的库

获取网络的源代码

提取图片的源地址

获取图片的二进制源码

定义main函数调用get_html函数

使用for循环便利列表

执行main函数

代码逻辑

在主程序中，你可以调用上述函数来实现功能：

调用get_html函数获取指定网址的源代码。
将源代码传入parse_pic_url函数，获取图片的源地址列表。
遍历图片源地址列表，在每个地址上调用get_pic_content函数获取图片的二进制源码。
将二进制源码和图片文件名传入save_pic函数，保存图片到本地。

需要注意的是，程序中假设要保存的图片都是jpg格式，并将保存的路径设为"大熊猫/"下。如果你要使用该程序，请确保已经创建了一个名为"大熊猫"的文件夹，并提供正确的网址和头部信息。

如果你已经在代码中定义了main函数，可以取消注释if __name__ == '__main__':这一行代码，并在该行代码之后调用main函数，以执行整个程序。

详细操作步骤

导入相应的库

导入了requests、re和os库，用于发送网络请求、进行正则表达式匹配和进行文件操作。

获取网络的源代码

定义get_html函数：该函数用于发送网络请求并返回网页的源代码。它接收两个参数，url表示要请求的网址，headers表示请求时的头部信息。函数发送GET请求，并设置编码为utf-8，如果请求成功则返回源代码，否则打印出错信息。

提取图片的源地址

定义parse_pic_url函数：该函数用于从网页源代码中提取图片的源地址。它接收一个参数，html表示网页的源代码。函数使用re.findall函数和正则表达式来匹配这段源代码中的图片地址信息，并将匹配结果返回。

获取图片的二进制源码

定义get_pic_content函数：该函数用于获取图片的二进制源码。它接收一个参数，url表示图片的地址。函数使用requests库发送GET请求获取图片的内容，并返回其二进制源码。

保存图片

定义save_pic函数：该函数用于保存图片。它接收两个参数，content表示图片的二进制源码，pic_name表示要保存的图片文件名。函数使用with open语句打开一个文件，以二进制写入模式写入图片内容，并关闭文件。

定义main函数调用get_html函数

调用get_html函数获取指定网址的源代码，并将返回结果赋值给变量html。
调用parse_pic_url函数，将html作为参数传入，提取出图片的源地址列表，并将返回结果赋值给变量result。
初始化变量pic_name为0。

那么url和headers内容怎么写？这里以爬取大熊猫图片为例，搜索后单击右键，再点击检查，出来下图，如果里面没有内容就刷新一下或把网页往下拉就会有了

按上图顺序点击，出现下图

使用for循环便利列表

使用for循环遍历result列表中的每个图片源地址。
在循环内部，首先调用get_pic_content函数，将item（图片源地址）作为参数传入，获取图片的二进制源码，并将返回结果赋值给变量pic_content。
调用save_pic函数，将pic_content和pic_name作为参数传入，保存图片到本地。
增加pic_name的值，用于标识不同的图片。
打印"正在保存第 x 张图片"的提示信息

执行main函数

如果尚未定义main函数，可以注释掉该行代码

运行效果

希望上文能对大家有所帮助，谢谢观看！

行走的表情包2333

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

行走的表情包2333 CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

133万+: 周排名

32万+: 总排名

1万+: 访问

: 等级

105: 积分

6: 粉丝

26: 获赞

12: 评论

101: 收藏

私信

关注

热门文章

最新评论

正则表达式详细讲解
CSDN-Ada助手: 恭喜您写了第三篇博客！标题为“正则表达式详细讲解”，这确实是一个非常实用和有趣的主题。您的博客内容一定能够帮助到许多读者，尤其是那些对正则表达式感兴趣的人。在接下来的创作中，您可以考虑拓展一下正则表达式的应用场景，或者分享一些实用的技巧和经验。同时，您也可以尝试与读者进行互动，例如回答一些常见问题或提供一些实例演练，以帮助读者更好地理解和运用正则表达式。总之，期待您的下一篇博客，并希望您能够继续保持创作的热情和坚持。谢谢您的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
爬取图片操作（从指定网页中提取图片地址并下载保存图片）
CSDN-Ada助手: 恭喜作者成功写下第四篇博客，内容也十分实用！不过我觉得接下来可以尝试添加一些关于图片处理的技巧，比如图片压缩、裁剪等方面的内容，这样会让博客内容更加丰富。希望作者能继续坚持创作，期待更多精彩的内容！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
树莓派部署yolov5
CSDN-Ada助手: 恭喜您成功部署了yolov5在树莓派上！这篇博客内容非常实用，对于想要在树莓派上使用yolov5的朋友们来说肯定非常有帮助。希望您能继续分享更多关于树莓派应用的经验和技巧，也可以考虑分享一些其他深度学习模型在树莓派上的部署方法，这样可以让更多的读者受益。期待您的下一篇博客！
yolov5 模型训练
CSDN-Ada助手: 恭喜您完成了第5篇博客！标题"yolov5 模型训练"听起来非常有趣。您的持续创作让我非常兴奋，每篇都带来了新的见解。在下一步的创作中，或许您可以考虑分享一些关于模型训练过程中的挑战和解决方案，这将为读者提供更全面的视角。期待您的下一篇博客！
爬取图片操作（从指定网页中提取图片地址并下载保存图片）
YYTXH: 终于知道怎么做了

大家在看

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。