使用批量输出链接的方式下载数据文件

最新推荐文章于 2024-08-21 22:35:36 发布

唐翊

最新推荐文章于 2024-08-21 22:35:36 发布

阅读量98

点赞数 1

分类专栏： python实用性代码整理文章标签： python

本文链接：https://blog.csdn.net/qq_45107056/article/details/134580784

版权

python实用性代码整理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前提：

网站上的数据文件存储命名有一定的规律性

实例：下载2000-2001年某一网站上的X辐射数据

下载存储链接形如https://www.ncei.noaa.gov/data/goes-space-environment-monitor/access/science/xrs/goes14/xrsf-l2-avg1m_science/2010/01/sci_xrsf-l2-avg1m_g14_d20100101_v1-0-0.nc 的数据文件

这个数据文件的名称可以分为四个部分：

1、具体文件名之前的链接 s_1

2、具体文件名前部分 s_2

3、循环下载过程中需要变化的日期部分包括 2010 01 20100101 三部分

4、具体文件名末尾部分 s_3

第一步：找到命名规范

s_1 = 'https://www.ncei.noaa.gov/data/goes-space-environment-monitor/access/science/xrs/goes14/xrsf-l2-avg1m_science'
s_2 = 'sci_xrsf-l2-avg1m_g14_d'
s_3 = '_v1-0-0.nc'

第二步：给出循环过程中需要修改的部分

year_start = 2010
year_end = 2011

第三步：循环将2010和2011年的下载链接放在一个.txt文件中

txt_dir = r'E:\solar_flare'
with open(f'{txt_dir}/xray.txt', 'w') as fid:
for year_i in range(year_start, year_end + 1):
    for mm_i in range(1, 13):
        _, dd_end = calendar.monthrange(year_i, mm_i)
        for dd_i in range(1, dd_end + 1):
            fid.write(f'{s_1}/{year_i:04d}/{mm_i:02d}/{s_2}{year_i:04d}{mm_i:02d}{dd_i:02d}{s_3}\n')

第四步：读取刚存储好的txt文件中的下载链接进行下载

import requests
import time

# 读取包含下载链接的文本文件
with open(f'{txt_dir}/xray.txt', 'r') as file:
    download_links = file.readlines()

# 遍历下载链接并下载文件
save_path = 'E:\\X-ray\\'
max_retries = 3
retry_delay = 5  # 重试延迟时间，单位为秒

for link in download_links:
    link = link.strip()  # 去除换行符和空格
    filename = link.split('/')[-1]  # 提取文件名
    retries = 0
    while retries < max_retries:
        try:
            response = requests.get(link, timeout=10)
            with open(save_path + filename, 'wb') as file:
                file.write(response.content)
            print(f"文件 {filename} 下载完成")
            break
        except Exception as e:
            print(f"下载文件 {filename} 失败：{str(e)}")
            retries += 1
            print(f"重试次数：{retries}")
            time.sleep(retry_delay)
    else:
        print(f"下载文件 {filename} 失败，已达到最大重试次数")

最后，合并即可。祝好~