JHTDB数据下载主要方法

参宿四（）

已于 2024-07-10 13:41:43 修改

阅读量191

点赞数 2

文章标签：数据仓库

于 2024-07-10 00:10:28 首次发布

本文链接：https://blog.csdn.net/qq_51936137/article/details/140309738

版权

JHTDB数据下载主要方法

官网：https://turbulence.pha.jhu.edu/

不管用什么方法，先申请一个token：https://turbulence.pha.jhu.edu/authtoken.aspx

way1：
在本地或云服务器中使用pyJHTDB库（https://github.com/idies/pyJHTDB），利用脚本下载到本地或云服务器上
（本地或云服务器直连数据库进行传输）
（可以处理大规模的数据；可以嵌入到其他程序中灵活获取数据从而不占用本地存储空间；but 下载速度很慢，且网络十分不稳定，尤其是在获取较大数据切片时）
#常用函数：getData（灵活获取再处理数据，支持插值），getCutout / getbigCutout（便捷获取RAW数据，getbigCutout是getCutout的再封装，可以自动将超大切片splt后进行分段获取）

way2：
在 SciServer（https://apps.sciserver.org/compute/）上用 jupyter 使用pyJHTDB库（https://github.com/idies/pyJHTDB），利用脚本下载到 SciServer 上
（SciServer 直连数据库进行传输）
（具备以上全部优势，且几乎是最稳定最快的方案；but 无AI硬件可用）

way3：
在网页版 Cutout 服务（https://turbulence.idies.jhu.edu/cutout/jobs#）中零代码手动获取切片，然后点击下载到本地或云服务器上
（SciServer 直连数据库进行传输，然后本地或云服务器链接 SciServer 进行下载）
（操作简单，手动获取切片后数据会被存储到 SciServer 上，然后可以直接点击下载，若在国内这是最快的下载方法！非常快！！！而且也是国内使用时“单次可请求的数据量”最大的方法！；but 手动的，需要大规模数据的话得一次次动手，相对繁琐）

# NOTE 以上所有方法，单次请求的切片都不能太大，否则网络会不稳定并失败，其中“单次可请求的数据量”最大且网络传输下载速度最快的是 way3，而且是遥遥领先（传输速度上亲测可能有约10~50倍的差距，“单次可请求的数据量”上约100倍的差距）
# NOTE 所有方法都有网络不稳定导致失败的可能（即使单次请求数据量不大也是如此），如果网速过慢且不稳定，建议换个时段再试

maybe best way 4 us：（该方法与way1相比，拥有同样的灵活性等优势，也同样存在网络不稳定的问题，在总耗时上并未严格测试谁更优）
在 SciServer的jupyter 中使用pyJHTDB库，利用脚本下载到 SciServer 上（即way2）
然后直接在 SciServer的jupyter 中找到数据所在位置，
或在 SciServer 的 volume （https://apps.sciserver.org/dashboard/files/uservolumes）里找到用 SciServer的jupyter 下载的数据的所在位置，
并手动点击下载，这两种方式与在网页版 Cutout 服务上点击下载网速差不多

maybe better way：
在 SciServer（https://apps.sciserver.org/compute/）上用 jupyter 使用pyJHTDB库（https://github.com/idies/pyJHTDB），利用脚本下载
然后，直接使用 SciServer 的 API 访问数据