如何使用linux优雅的下载云检测Biome数据集

最近在研究遥感影像云检测相关课题。其中,Biome是USGS发布的一个公开数据集。其官方地址如下:

Landsat 8 Cloud Cover Assessment Validation Data

该数据集共包含96张多波段遥感图像。官网并未提供一键下载方式且下载地址并无明显命名递增规律(指的是*01.gz,*02.gz … 这种),但是可以确定的是命名都类似 https://landsat.usgs.gov/cloud-validation/cca_l8/(*).tar.gz

0. 确定思路

如何在linux平台比较高效的下载该数据集呢?
思路大致就是:

  1. 爬虫获取数据集链接,存放至txt文件中(换行区分)
  2. 使用wget命令编写shell脚本实现批量下载。

1. 爬虫

这段代码的主要功能就是爬虫删选出数据的链接并保存到文本文件中。

# coding = utf-8
import os
import requests
import re

url = "https://landsat.usgs.gov/landsat-8-cloud-cover-assessment-validation-data"

res = requests.get(url)

res.encoding = 'utf-8'

res = res.text

it = re.finditer(r"https://landsat.usgs.gov/cloud-validation/cca_l8/(.*).tar.gz",res) 
with open("urls.txt", "w+") as f:
    for match in it: 
        print (match.group() )
        f.write(match.group() + '\n')

Windows用户到这布就可以不用看了,直接复制到迅雷之类的软件批量下载就可以。

2. shell脚本批量下载

shell脚本主要是循环读取下载链接并做到依次下载

!/bin/bash
# desc: download resource
# author: John
while read line
do
    echo $line
    url=$(echo "$line" | tr -d '\r')
	wget  $url
done < url.txt

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值