爬取彼岸图网全站图片（非原图）

最新推荐文章于 2024-07-29 14:37:54 发布

loveking001

最新推荐文章于 2024-07-29 14:37:54 发布

阅读量98

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/loveking001/article/details/133940948

版权

import requests
from  lxml import etree
import time
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}
print("可供下载选项",["动漫","游戏","风景","美女","影视","汽车","宗教","背景","平面壁纸","手机壁纸","独家",])
start = time.time()

for page in range(1,23):#选择需要下载的页面范围

    动漫 = '4kdongman'
    游戏 = "4kyouxi"
    风景 = "4kfengjing"
    美女 = "4kmeinv"
    影视 = "4kyingshi"
    汽车 = "4kqiche"
    动物 = "4kdongwu"
    宗教 = "4kzongjiao"
    背景 = "4kbeijing"
    平面壁纸 = "pingban"
    手机壁纸 = "shoujibizhi"
    独家 = "4kdujia"

    if page ==1:
        name = input("请输入你想要的壁纸类别（英文）：")
        url =f"https://pic.netbian.com/{name}/"
    else:
        url = f'https://pic.netbian.com/{name}/index_%d.html'%page
    print(f"开始下载第{page}页")
    response_page = requests.get(url,headers=headers,proxies=False)
    response_page.encoding = 'gbk'
    response_text = response_page.text
    response_tree = etree.HTML(response_text)
    li_list = response_tree.xpath('//*[@id="main"]/div[3]/ul/li')
    for list in li_list:
        bizhiname = list.xpath('./a/b/text()')[0]
        detail_href = "https://pic.netbian.com/"+list.xpath('./a/@href')[0]
        href_text = requests.get(detail_href,headers=headers,proxies=False)
        href_text.encoding = 'gbk'
        href_text = href_text.text
        href_text_tree = etree.HTML(href_text)
        down_url ="https://pic.netbian.com/"+href_text_tree.xpath('//*[@id="img"]/img/@src')[0]
        data = requests.get(down_url,headers=headers).content
        img_name = './imgs2/'+bizhiname+'.png'
        with open(img_name,"wb")as f :
            f.write(data)
        print(f"{bizhiname}已经下载完成")