Python--爬虫爬取优美图库--bs4（BeatifulSoup）入门

最新推荐文章于 2024-07-17 14:11:27 发布

等黄昏等你来

最新推荐文章于 2024-07-17 14:11:27 发布

阅读量3.1k

点赞数 3

分类专栏：爬虫 | Python 文章标签： BeautifulSoup 网页爬取图片下载 Python 网络请求

本文链接：https://blog.csdn.net/qq_57663276/article/details/127064423

版权

爬虫 | Python 专栏收录该内容

19 篇文章 6 订阅

订阅专栏

2.3.1、确定目标主页面源代码截图与子页面源代码截图：

3.1、节省时间，只运行了一下下，把爬取到的图片保存到文件内，并按我们规定的名称进行保存。

四、问题与总结

4.1、问题：

4.1.1：使用bs4对象.find_all（）函数（未使用遍历），会出现报错：具体报错啥忘了，

4.1.2：如何更好的保存数据？如何一次性爬取全站内容？

4.2、总结：

4.2.1：明确爬取内容，和步骤；

4.2.2：页面的转换需要及时发起请求生成bs4对象；

4.2.3：下载的内容保存的方法；

一、bs4简介

全称：BeatifulSoup；

作用：解析页面源代码，提取页面内容；

本次使用的bs4函数：bs4对象.find（），bs4对象.find_all（）；BeatifulSoup（）；bs4对象.get（“属性值”）；四个函数

BeatifulSoup（）函数：使用方法为：BeatifulSoup（页面源代码，“页面源代码格式”），用法如下

result1 = BeautifulSoup(resp_content1, "html.parser")

返回的resulut1是一个bs4对象；

bs4对象.find（）函数：查找第一个符合要求的数据并返回，使用方法为：bs4对象.find（“标签名”，标签属性=“值”）->简单用法，如下

li1 = result2.find("div", class_="TypeList")

返回的li1是一个bs4对象，并且范围缩小为div标签；

bs4对象.find_all（）函数：查找全部符合要求的数据并返回，使用方法为：bs4对象.find（“标签名”，标签属性=“值”）->简单用法，如下

all_a = it2.find_all("a", class_="TypeBigPics")

返回的all_a是一个包含全部符合筛选要求的数据的列表，在使用时需要进行遍历取出，使用方法如下：

all_a = it2.find_all("a", class_="TypeBigPics")
        for it3 in all_a:
            x += 1
            all_img = it3.find("img")
            all_src = all_img.get("src")

bs4对象.get（）函数使用：bs4对象.get（“属性值”），使用方法如下：

all_img = it3.find("img")    
all_src = all_img.get("src")    # 取出img标签的src值

二、步骤

2.1、准备好运行环境：

系统：win10家庭版，编辑器：pycharm edu

需要的库：requests、bs4、time

需要知道怎么看是get请求，还是post请求或者其它提交参数的请求。

2.2、下载bs4：

如下图，2.2.1/2.2.2/2.2.3

图2.2.1

图2.2.2

图2.2.3

等待几分钟即下载完成。

2.3、上手操作

2.3.1、确定目标主页面源代码截图与子页面源代码截图：

如何查看页面源代码呢？

在网页随便一个地方鼠标右键点击，查看页面源代码。如下图2.3.1

图2.3.1

主页面源代码：

子页面源代码：

本次目标：

# 优美图库
# 1、拿到主页面源代码，交给bs4
# 2、拿到子页面源代码，交给bs4
# 3、拿到图片链接，下载，保存到文件或者数据库（正在学习）

下面的代码都是基于要爬取的页面源代码进行分析。