进程池下载2-CSDN博客

本文链接：https://blog.csdn.net/buguanlan/article/details/140915442

import os
import requests
from PIL import Image
from io import BytesIO
import pandas as pd
from multiprocessing import Pool

def download_image(url_caption_tuple):
    url, caption = url_caption_tuple
    try:
        response = requests.get(url)
        if response.status_code == 200:
            img = Image.open(BytesIO(response.content))
            img_name = url.split("/")[-1]
            img.save(os.path.join('images', img_name))
            return img_name, caption
        else:
            return None, None
    except Exception as e:
        print(f"Error downloading {url}: {e}")
        return None, None

def process_csv_file(file_path):
    df = pd.read_csv(file_path)
    url_caption_list = df[['url', 'caption']].values.tolist()
    results = [download_image(item) for item in url_caption_list]
    img_caption_data = [result for result in results if result[0] is not None]
    return img_caption_data

def main(folder_path):
    if not os.path.exists('images'):
        os.makedirs('images')

    csv_files = [os.path.join(folder_path, filename) for filename in os.listdir(folder_path) if filename.endswith(".csv")]

    with Pool(processes=10) as pool:
        results = pool.map(process_csv_file, csv_files)

    all_results = [item for sublist in results for item in sublist]

    df = pd.DataFrame(all_results, columns=["Image Name", "Caption"])
    df.to_excel('image_captions.xlsx', index=False)

if __name__ == "__main__":
    folder_path = "path_to_your_csv_folder"
    main(folder_path)

下载图片函数 (download_image)：

接收一个包含 URL 和 caption 的元组。
使用 requests 下载图片并保存。
返回图片名和 caption，如果下载失败则返回 None, None。
处理 CSV 文件函数 (process_csv_file)：

使用 pandas 读取 CSV 文件。
下载每个 URL 对应的图片并返回结果。
返回包含图片名和 caption 的列表。
主函数 (main)：

检查并创建保存图片的目录。
获取所有 CSV 文件路径。
使用进程池并行处理每个 CSV 文件。
合并所有结果并保存到一个 Excel 文件中。