Python-图片爬取的基本原理

最新推荐文章于 2022-02-07 18:26:16 发布

左梦

最新推荐文章于 2022-02-07 18:26:16 发布

阅读量1.2k

点赞数

文章标签： python 爬虫人工智能

本文链接：https://blog.csdn.net/m0_52113477/article/details/120038240

版权

本文介绍了Python图片爬取的基本原理，包括通用爬虫的四个步骤，并强调了图片爬取时使用.content属性获取二进制数据以及'wb'模式存储的特性。通过代码示例和步骤分析，阐述了如何手动和批量获取图片URL，以及在请求中设置header和参数的重要性。文章总结了爬取图片的重点在于数据解析，提到了Python常用的数据解析方法如正则表达式、bs4和xpath。

摘要由CSDN通过智能技术生成

0 引言

通用爬虫的基本步骤：

step_1 指定url > step_2 发起请求获取响应对象 > step_3 获取响应数据 > step_4持久化存储

图片的爬取原理和其他数据的爬取原理是一样的，只不过图片是以二进制数据形式存储的，其他数据在第三步step_3 获取响应数据时，要么用.text属性要么用.json()方法获取数据的，而二进制数据要使用.content属性获取，并且在第四步step_4持久化存储时写入方式是'wb'，就这两个方面的不同。对于open()函数的相关参数介绍可以参考如下链接：https://blog.csdn.net/weixin_45850939/article/details/105214665

接下来用代码对某一张图片进行爬取，具体说明一下图片爬取的基本原理。

1 代码部分

import requests

# step_1 指定url
url = 'https://pic.qiushibaike.com/system/pictures/12463/124630529/medium/K0V59CJ7N9TQR58P.jpg'  
# step_2 发起请求获取响应对象
response = requests.get(url=url)                                                                 
# step_3 获取响应数据
img_data = response.content                                                                      
#