使用多线程技术爬取高清图片

qianye_www

已于 2022-07-21 15:53:46 修改

阅读量144

点赞数

分类专栏：编程爬虫文章标签： python 爬虫开发语言算法 conda

于 2022-07-21 14:53:48 首次发布

本文链接：https://blog.csdn.net/qianye_www/article/details/125912213

版权

编程同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

该博客主要介绍了一段Python爬虫代码，利用正则表达式、requests和多线程模块进行网页抓取。当网络状态正常，返回200响应时，程序会启动并等待用户输入开始。代码涉及编码转换，从ISO-8859-1转为GBK，以正确解析HTML内容。通过正则匹配获取URL和图片名，并采用多线程下载图片，确保高效执行。程序中还包含对网络异常的处理，当网络不正常时，程序会提示并关闭。

摘要由CSDN通过智能技术生成

软件使用到以下模块：

import re #正则表达式
import requests #网页爬虫
import os #文件系统
import random #随机
import threading #多线程
import time #时间

部分源代码透露

if str(total) == "<Response [200]>":
    print("网络正常:",total,"\n——————————————————————")
    input("输入回车开始：")
else:
    print("\033[31m网络异常:\033[0m",total,"\n——————————————————————")
    input("输入回车\033[31m关闭\033[0m：")
    os._exit()

》》》》》》》》》》》》》》》》》》》》

    for thread in threads:
        time.sleep(time1)
        thread.start() #多线程启动

》》》》》》》》》》》》》》》》》》》》

page(urlsum[munber])#第一页爬取
for it in list(range(int(uu))):#第n页爬取
    page(urlsum[munber]+index%it)

重要的代码：

编码转换

html = total.text.encode('ISO-8859-1').decode("gbk")#编码转换

URL和图片名提取

uu = re.search("<span class=\".*?\">…</span><a href=\".*?\">(?P<ee>\d+)</a>",html)

多线程

for i, u in urlname:  # i=url u=name
    threads.append(threading.Thread(target=image,args=(i,u,)))#多线程创建
for thread in threads:
    time.sleep(time1)
    thread.start() #多线程启动
for thread in threads:
    thread.join() #多线程等待关闭

效果如下