python实例三：爬取高清手机壁纸

最新推荐文章于 2024-09-27 10:56:02 发布

菜里亚批

最新推荐文章于 2024-09-27 10:56:02 发布

阅读量288

点赞数 1

分类专栏： python requests 文章标签： python 爬虫

本文链接：https://blog.csdn.net/bo222/article/details/118255971

版权

python 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

requests

5 篇文章 0 订阅

订阅专栏

直接上代码，下来有时间单独发一篇进行讲解，文章底部有效果图

仅用学习，如有侵权立即删除
在这里插入图片描述

有两个地方需要改一下
1、headers 改成自己浏览器的
2、path 改成自己本地任意路径

import requests
import re
import threading

headers = {
    "User-Agent": "xxxxxxxxxx"
}

def get_img(url):
    res_img = requests.get(url=url,headers=headers)
    res_img.encoding = 'utf-8'
    html = res_img.text
    img_url = re.compile('<img lazysrc="(.*?)" lazysrc2x=')
    title = re.compile('title="(.*?)" />')
    last_page = re.compile('..<a href="(.*?)">')
    img_url_d = img_url.findall(html)
    title_pattern = title.findall(html)

    for u,t in zip(img_url_d,title_pattern):
        url = u[0:int(u.rindex("238.390.jpg")-1)]
        # print(url,t)
        seva_img(url,t)


def seva_img(url,title):
    path = '/Users/Bob/PycharmProjects/ModeTest/Mobile_wallpaper'
    try:
        print(f"{title} - {url}")

        res = requests.get(url=url,headers=headers)
        if res is not None:
            html = res.content
            with open(f"{str(path)}/{str(title)}.jpg",'wb+') as f:
                f.write(html)
    except Exception as er:
        print(url,er)


if __name__ == '__main__':
    # 最后使用多线程进行爬取，开启 5 个线程，当所有线程结束运行时，停止整体代码。
    semaphore = threading.BoundedSemaphore(5)
    for index in range(1,118+1):
        t = threading.Thread(target=get_img, args=(f"https://www.3gbizhi.com/sjbz/index_{index}.html",))
        t.start()
    while threading.active_count() != 1:
        pass
    else:
        print("所有进程执行完毕")