批量下载图片

最新推荐文章于 2024-07-25 00:08:05 发布

Taurus.W_

最新推荐文章于 2024-07-25 00:08:05 发布

阅读量316

点赞数 11

文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_45023811/article/details/136151801

版权

import urllib.request
from lxml import etree

def create_request(page):
    if(page == 1):
        url = 'https://sc.chinaz.com/tupian/shuiguotupian.html'
    else:
        url = 'https://sc.chinaz.com/tupian/shuiguotupian_' + str(page) + '.html'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
    }
    requests = urllib.request.Request(url = url, headers = headers)
    return requests

def get_content(request):
    response = urllib.request.urlopen(request)
    content = request.read().decode('utf-8')
    return content

def down_load(content):
# urllib.request.urlretrieve('图片地址','文件名字')
    tree = etree.HTML(content)
    name_list = tree.xpath('//div[@class="item masonry-brick"]/img/@alt')
    # 一般涉及图片的网站都会进行懒加载   src会变 一定要获取变之前的数据
    src_list = tree.xpath('//div[@class="item masonry-brick"]/img/@src')
    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        url = 'https:' + src
        urllib.request.urlretrieve(url=url,filename='./fruitImg/' + name + '.jpg')



    # print(len(name_list),len(src_list))
    # print(len(name_list))
    # for name in name_list:
    #     print(name)

if __name__ == '__main__':
    start_page = int(input('起始页码：'))
    end_page = int(input('最后页码：'))

    for page in range(start_page,end_page+1):
        request = create_request(page)
        content = get_content(request)
        down_load(content)