python 爬取图片

# os 系统操作模块 系统自带不需要安装
import os
# requests 发送请求模块 pip install requests
import requests
# 解析 html 模块 pip install lxml
from lxml import etree

# 设置请求头 User-Agent 设置代理
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
}

# 发送 get 请求 第一个参数请求地址, 第二个参数请求头设置
res = requests.get('https://yys.163.com/media/picture.html', headers=headers)

# etree.HTML 把获取的文本格式转为 html 格式
res_root = etree.HTML(res.text)

# xpath 解析 html
# // 代表通过任何位置开始
# //div[@class="tab-cont"] 从 class 为 tab-cont 的 div 开始获取
# // div[@class="tab-cont"]/div/div/img/@data-src 获取 class="tab-cont" div的子div的div里面的img标签上的 data-src 的值
# div[@class="tab-cont"]/div/div/img/@data-src (如下格式)
'''
    <div class="tab-cont">
        <div>
            <div>
                <img data-src="" />
            </div>
        </div>
    </div>
'''
res_imgs = res_root.xpath('//div[@class="tab-cont"][1]/div/div/img/@data-src')

imgs_list = []

# for 循环
for index, item in enumerate(res_imgs):
    imgs_list.append(item[0:item.rindex('/')] + '/2732x2048.jpg')

# os.path.exists() 判断文件夹是否存在
# os.makedirs() 新建文件夹
if not os.path.exists("heng"):
    os.makedirs("heng")

''' 
	# 写文件方式
	with open(文件名, 'wb') as f:
		f.write(内容)
'''
for index, item in enumerate(imgs_list):
    image_name = item[item.rindex('picture'):item.rindex('/')].replace('/', '_')
    print(f"正在下载 {image_name} 壁纸")
    image_content = requests.get(item, headers=headers)
    with open(f'./heng/{image_name}.jpg', 'wb') as f:
        f.write(image_content.content)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值