pyhton爬取一、二级网站页面，并将爬取的图片信息保存到本地

程序员小蛋

已于 2022-07-20 20:44:06 修改

阅读量2.6k

点赞数 2

分类专栏： python爬虫案例文章标签： python 爬虫 python爬取一二级页面 python爬取图片内容 python爬取图片保存本地

于 2022-07-20 17:41:15 首次发布

本文链接：https://blog.csdn.net/weixin_40228600/article/details/125893787

版权

python爬虫案例专栏收录该内容

10 篇文章 4 订阅

订阅专栏

python需要注意的几个技术点：
1、split()切割字符串，指定需要切割的内容
比如案例中：
ch_img=“http://kr.shanghai-jiuxin.com/file/2022/0720/c2fca50b8f15f77d3328fd6eb5c1c68f.jpg”
ch_img.split(“/”)[-1]
将ch_img字符串内容按照"/"切割，并返回分割后的字符串列表，-1代表返回最后一列数据，在文中意思是图片的命名名称。

2、BeautifulSoup中"html.parser"是python中自带的html解析器，将获取的内容转换为html

3、导入时间time，随机数random，这个类导入主要用来模拟人体访问数据的时效性，起到反爬虫的效果。 time.sleep(random.randint(0, 3))：时间间隔0-3秒随机数

4、图片内容保存地址with open(“img/” + img_name, mode=“wb”) as f:
mode对应类型主要有以下几种：
r

以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。

以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。

打开一个文件用于读写。文件指针将会放在文件的开头。

rb+

以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。

打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

wb+

以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。

ab+

以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

以下是设计的案例，主要用来理解消化上面提到的技术难点

import requests
from bs4 import BeautifulSoup
import time
import random

url = "https://www.umei.cc/"
resp = requests.get(url)
# 定义读取文件转码格式
resp.encoding = "utf-8"
# html网页解析器
soup = BeautifulSoup(resp.text, "html.parser")
# 查找所有main标签class="main wrap"从第二个开始，找到后在查找标签为a的,从第1个到11个数据
main_a = soup.find_all("main", attrs={"class": "main wrap"})[2].find_all("a")[1:11]
main_img = soup.find_all("main", attrs={"class": "main wrap"})[2].find_all("img")[1:11]
main_name = soup.find_all("main", attrs={"class": "main wrap"})[2].find_all("span")[1:11]

# 定义查找的集合
namelist = []
alist = []
ilist = []

for i in main_a:
    alist.append("https://www.umei.cc" + i.get("href"))
    url = "https://www.umei.cc" + i.get("href")
    child_page_resp = requests.get(url)
    # 定义编码格式utf-8
    child_page_resp.encoding = "utf-8"
    child_page = BeautifulSoup(child_page_resp.text, "html.parser")
    ch_img = child_page.find("section", attrs={"class": "img-content"}).find("img").get("src")
    ch_resp = requests.get(ch_img)
    # split将文件切割，-1获取最后一个切割数据
    img_name = ch_img.split("/")[-1]
    count = 0
    with open("img/" + img_name, mode="wb") as f:
        print("开始写入数据")
        time.sleep(random.randint(0, 3))
        # 将文件写入到指定文件中
        f.write(ch_resp.content)

# 关闭文件流操作
f.close()
print("写入完毕")

# 循环遍历main_img图片地址，通过src属性获取到里面内容,并存储到定义的ilist集合中
for j in main_img:
    ilist.append(j.get("src"))

# 循环遍历src标签的值
for k in main_name:
    namelist.append(k.text)

程序员小蛋

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
pyhton爬取一、二级网站页面，并将爬取的图片信息保存到本地

如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件进行写入。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件进行写入。打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。如果该文件不存在，创建新文件。如果该文件不存在，创建新文件。如果该文件不存在，创建新文件。如果该文件不存在，创建新文件。文件的指针将会放在文件的开头。..
复制链接

扫一扫