pyhton爬取一、二级网站页面,并将爬取的图片信息保存到本地

python需要注意的几个技术点:
1、split()切割字符串,指定需要切割的内容
比如案例中:
ch_img=“http://kr.shanghai-jiuxin.com/file/2022/0720/c2fca50b8f15f77d3328fd6eb5c1c68f.jpg”
ch_img.split(“/”)[-1]
将ch_img字符串内容按照"/"切割,并返回分割后的字符串列表,-1代表返回最后一列数据,在文中意思是图片的命名名称。

2、BeautifulSoup中"html.parser"是python中自带的html解析器,将获取的内容转换为html

3、导入时间time,随机数random,这个类导入主要用来模拟人体访问数据的时效性,起到反爬虫的效果。 time.sleep(random.randint(0, 3)):时间间隔0-3秒随机数

4、图片内容保存地址with open(“img/” + img_name, mode=“wb”) as f:
mode对应类型主要有以下几种:
r

以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。

rb

以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。

r+

打开一个文件用于读写。文件指针将会放在文件的开头。

rb+

以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。

w

打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。

wb

以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。

w+

打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。

wb+

以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。

a

打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。

ab

以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。

a+

打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。

ab+

以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。

以下是设计的案例,主要用来理解消化上面提到的技术难点

import requests
from bs4 import BeautifulSoup
import time
import random

url = "https://www.umei.cc/"
resp = requests.get(url)
# 定义读取文件转码格式
resp.encoding = "utf-8"
# html网页解析器
soup = BeautifulSoup(resp.text, "html.parser")
# 查找所有main标签class="main wrap"从第二个开始,找到后在查找标签为a的,从第1个到11个数据
main_a = soup.find_all("main", attrs={"class": "main wrap"})[2].find_all("a")[1:11]
main_img = soup.find_all("main", attrs={"class": "main wrap"})[2].find_all("img")[1:11]
main_name = soup.find_all("main", attrs={"class": "main wrap"})[2].find_all("span")[1:11]

# 定义查找的集合
namelist = []
alist = []
ilist = []

for i in main_a:
    alist.append("https://www.umei.cc" + i.get("href"))
    url = "https://www.umei.cc" + i.get("href")
    child_page_resp = requests.get(url)
    # 定义编码格式utf-8
    child_page_resp.encoding = "utf-8"
    child_page = BeautifulSoup(child_page_resp.text, "html.parser")
    ch_img = child_page.find("section", attrs={"class": "img-content"}).find("img").get("src")
    ch_resp = requests.get(ch_img)
    # split将文件切割,-1获取最后一个切割数据
    img_name = ch_img.split("/")[-1]
    count = 0
    with open("img/" + img_name, mode="wb") as f:
        print("开始写入数据")
        time.sleep(random.randint(0, 3))
        # 将文件写入到指定文件中
        f.write(ch_resp.content)

# 关闭文件流操作
f.close()
print("写入完毕")

# 循环遍历main_img图片地址,通过src属性获取到里面内容,并存储到定义的ilist集合中
for j in main_img:
    ilist.append(j.get("src"))

# 循环遍历src标签的值
for k in main_name:
    namelist.append(k.text)

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员小蛋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值