python爬取图片

一次简单的图片爬取;

1.爬取的网站:4K美女壁纸_高清4K美女图片大全_彼岸图网

2.查看网页源代码:

注意查看head里面的信息,这里的编码方式是"gbk",获取网页的html时要设置编码方式来简单尝试请求一下该网站看看是否需要进行伪装:

root_url = "https://pic.netbian.com/4kmeinv/"
response = requests.get(root_url)
print(response.status_code)

返回值是200表示请求成功我们不需要做伪装,接下来就是拿到并解析html代码,获取图片的下载地址:

此时我们可以看到图片的下载地址都在<li><li>之间这次使用一个更简单的方法来获取目标数据:

html = response.content.decode("gbk")
tree = etree.HTML(html)
imgs = tree.xpath('//*[@id="main"]/div[3]/ul/li/a/img/@src')
for img in imgs:
    print(img)

 

可以看到我们已经成功 拿到下载地址了,之后请求下载的时候讲域名拼接上就好.

import requests
from lxml import etree
import os

root_url = "https://pic.netbian.com/4kmeinv/"
url_list = []
# 制作10页的url
for i in range(1, 11):
    if i == 1:
        url_list.append(root_url)
    else:
        url = f"https://pic.netbian.com/4kmeinv/index_{i}.html"
        url_list.append(url)
i = 0
j = 0
for url in url_list:
    j += 1
    response = requests.get(url)
    html = response.content.decode("gbk")
    tree = etree.HTML(html)
    imgs = tree.xpath('//*[@id="main"]/div[3]/ul/li/a/img/@src')
    for img in imgs:
        i += 1
        img_url = "https://pic.netbian.com" + img
        # 利用图片的下载地址,来设置图片的本地命名
        filenmae = os.path.basename(img_url)
        with open(f"imgoutput/{filenmae}", "wb") as f:
            # 想要下载图片需要再次请求图片的url才可以下载到图片
            response_img = requests.get(img_url)
            # response_img.content得到的是二进制流
            f.write(response_img.content)
        print(f"第{j}页,第{i}张图片爬取完成")
    i = 0

这里是爬取了10页的图片 ,有翻页的url自己制作一下就好,然后通过循环就可以搞定,也可以将其封装成函数调用。

  • 9
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值