python爬取图片

m0_73511684

已于 2024-06-30 10:01:10 修改

阅读量143

点赞数 9

文章标签： python 开发语言

于 2024-06-29 22:34:46 首次发布

本文链接：https://blog.csdn.net/m0_73511684/article/details/140071665

版权

一次简单的图片爬取;

1.爬取的网站：4K美女壁纸_高清4K美女图片大全_彼岸图网

2.查看网页源代码：

注意查看head里面的信息，这里的编码方式是"gbk"，获取网页的html时要设置编码方式来简单尝试请求一下该网站看看是否需要进行伪装：

root_url = "https://pic.netbian.com/4kmeinv/"
response = requests.get(root_url)
print(response.status_code)

返回值是200表示请求成功我们不需要做伪装，接下来就是拿到并解析html代码，获取图片的下载地址：

此时我们可以看到图片的下载地址都在<li><li>之间这次使用一个更简单的方法来获取目标数据：

html = response.content.decode("gbk")
tree = etree.HTML(html)
imgs = tree.xpath('//*[@id="main"]/div[3]/ul/li/a/img/@src')
for img in imgs:
    print(img)

可以看到我们已经成功拿到下载地址了，之后请求下载的时候讲域名拼接上就好.

import requests
from lxml import etree
import os

root_url = "https://pic.netbian.com/4kmeinv/"
url_list = []
# 制作10页的url
for i in range(1, 11):
    if i == 1:
        url_list.append(root_url)
    else:
        url = f"https://pic.netbian.com/4kmeinv/index_{i}.html"
        url_list.append(url)
i = 0
j = 0
for url in url_list:
    j += 1
    response = requests.get(url)
    html = response.content.decode("gbk")
    tree = etree.HTML(html)
    imgs = tree.xpath('//*[@id="main"]/div[3]/ul/li/a/img/@src')
    for img in imgs:
        i += 1
        img_url = "https://pic.netbian.com" + img
        # 利用图片的下载地址，来设置图片的本地命名
        filenmae = os.path.basename(img_url)
        with open(f"imgoutput/{filenmae}", "wb") as f:
            # 想要下载图片需要再次请求图片的url才可以下载到图片
            response_img = requests.get(img_url)
            # response_img.content得到的是二进制流
            f.write(response_img.content)
        print(f"第{j}页，第{i}张图片爬取完成")
    i = 0