进程池下载文件1

import os
import requests
from PIL import Image
from io import BytesIO
import pandas as pd
from multiprocessing import Pool

def download_image(url_caption_tuple):
    url, caption = url_caption_tuple
    try:
        response = requests.get(url)
        if response.status_code == 200:
            img = Image.open(BytesIO(response.content))
            img_name = url.split("/")[-1]
            img.save(os.path.join('images', img_name))
            return img_name, caption
        else:
            return None, None
    except Exception as e:
        print(f"Error downloading {url}: {e}")
        return None, None

def process_csv_file(file_path):
    df = pd.read_csv(file_path)
    return df[['url', 'caption']].values.tolist()

def main(folder_path):
    if not os.path.exists('images'):
        os.makedirs('images')

    url_caption_list = []
    for filename in os.listdir(folder_path):
        if filename.endswith(".csv"):
            file_path = os.path.join(folder_path, filename)
            url_caption_list.extend(process_csv_file(file_path))

    with Pool(processes=10) as pool:
        results = pool.map(download_image, url_caption_list)

    img_caption_data = [result for result in results if result[0] is not None]
    df = pd.DataFrame(img_caption_data, columns=["Image Name", "Caption"])
    df.to_excel('image_captions.xlsx', index=False)

if __name__ == "__main__":
    folder_path = "path_to_your_csv_folder"
    main(folder_path)

下载图片函数 (download_image):

接收一个包含 URL 和 caption 的元组。
使用 requests 下载图片并保存。
返回图片名和 caption,如果下载失败则返回 None, None。
处理 CSV 文件函数 (process_csv_file):

使用 pandas 读取 CSV 文件。
返回包含 URL 和 caption 的列表。
主函数 (main):

检查并创建保存图片的目录。
遍历指定文件夹中的所有 CSV 文件,调用 process_csv_file 函数获取 URL 和 caption 列表。
使用进程池并发下载图片。
将图片名和 caption 保存到 Excel 文件中。
with Pool(processes=10) as pool: 创建一个进程池,指定同时运行的进程数为 10。
results = pool.map(download_image, url_caption_list) 使用进程池的 map 方法,将 download_image 函数应用到 url_caption_list 中的每个元素。每个元素是一个包含 URL 和 caption 的元组。
results 会包含每个下载任务的返回值,即图片名和 caption 的元组。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值