28、STARnet:天文学研究的科学网关架构与应用

STARnet:天文学研究的科学网关架构与应用

1 STARnet 架构

STARnet 架构借助包含 WS - PGRADE/gUSE 网关安装及各站点适当配置的虚拟机(VMs)开发而成。使用 VM 和 WS - PGRADE/gUSE 框架的模块化特性,确保了整体基础设施的轻松设置和维护。不过,使用 VMs 时,由于每个 VM 相关资源有限,计算性能(存储和速度方面)的可靠性可能无法保证。但在 STARnet 架构中,大量模拟和计算任务在底层数据中心基础设施(DCIs)上执行,因此不会影响 STARnet 网关的整体性能。

Liferay 和 gUSE 数据库、本地 gUSE 存储以及本地 gUSE 应用程序存储库可配置在主机或各站点的不同服务器上,以便定期升级包含错误修复和最新 WS - PGRADE/gUSE 网关版本的新 VMs。

1.1 共享服务

不同科学网关之间共享以下服务:
- 单点登录(SSO)认证 :允许用户使用相同凭据登录不同网关。
- 工作流/Portlet 共享 :SHIWA/SCI - BUS 存储库存储工作流/Portlet 及其相关元数据,便于研究其与其他工作流系统的互操作性,并通过 SHIWA 模拟平台在不同网关用户和外部相关社区中传播。
- 共享数据 :云上数据(Data - on - a - Cloud)基础设施允许在各网关可访问的环境中共享用户数据,以便通过不同应用程序进行不同处理。

1.2 本地服务

以下服务在本地保留:
- 本地 Liferay 账户 :这些用户凭据通常与特定网关相关联。
- gUSE 本地应用程序存储库 :用于在单个网关上存储工作流和相关元数据信息。
- gUSE 存储 :用于存储私人用户数据集。

为实现共享认证,采用了 SSO Shibboleth 服务,它允许从 LDAP 到 X.509 用户证书登录等多种登录处理程序。身份提供者是一个 Java Servlet 网络应用程序,用户身份信息从 LDAP 服务中提取,Liferay 认证使用 Liferay Hook 插件执行。

共享认证便于将共享存储连接到网关。共享存储服务使用 Unison 实现星型拓扑网络上的数据同步,使用 ownCloud 让用户在所有 STARnet 网关中找到其数据,ownCloud 客户端还使最终用户能够在桌面或智能手机设备上共享文件。

服务类型 具体服务 描述
共享服务 单点登录(SSO)认证 使用相同凭据登录不同网关
共享服务 工作流/Portlet 共享 SHIWA/SCI - BUS 存储库存储并传播工作流和 Portlet
共享服务 共享数据 Data - on - a - Cloud 基础设施实现数据共享
本地服务 本地 Liferay 账户 与特定网关关联的用户凭据
本地服务 gUSE 本地应用程序存储库 存储单个网关的工作流和元数据
本地服务 gUSE 存储 存储私人用户数据集

1.3 架构流程图

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(STARnet架构):::process --> B(虚拟机VMs):::process
    B --> C(WS - PGRADE/gUSE网关):::process
    C --> D(共享服务):::process
    C --> E(本地服务):::process
    D --> D1(单点登录认证):::process
    D --> D2(工作流/Portlet共享):::process
    D --> D3(共享数据):::process
    E --> E1(本地Liferay账户):::process
    E --> E2(gUSE本地应用程序存储库):::process
    E --> E3(gUSE存储):::process

2 STARnet 科学案例

STARnet 科学网关托管的应用程序均实现为 WS - PGRADE/gUSE 工作流,通过 Portlet 使用 gUSE ASM API 以交互和直观的方式提交到不同 DCIs 执行。Portlet 允许最终用户在无需事先具备底层 DCI 配置特定技术专长的情况下提交工作流。

2.1 修正引力的大规模模拟

宇宙加速是宇宙学中极具挑战性的问题之一。在广义相对论(GR)框架下,加速源于暗能量,但要解释当前宇宙加速,所需暗能量值必须极小。近期,人们努力构建修正引力模型(即不引入暗能量)作为暗能量模型的替代方案。

观察宇宙大尺度结构原则上可为宇宙尺度的 GR 提供新测试。由于结构形成过程高度非线性,此类测试离不开模拟。因此,针对修正引力模型进行了大规模模拟,如来自修正引力大规模模拟(LaSMoG)联盟的模拟。

LaSMoG 工作流实现了定制可视化,用于辅助分析修正 GR 模拟,具体是通过与标准 GR 模型数据集适当比较来检查数据集以发现异常。该工作流使用 VisIVO 工具进行可视化和过滤处理,主要计算步骤如下:
1. 处理对应标准引力(DS)和修正引力(DM)模型模拟快照的两个数据集。由于对两个模型应用相同处理,采用 gUSE 参数扫描解释执行以下步骤:
- 生成两个数据集中点数减少的点分布子样本,为每个子样本创建全景电影。
- 对 DS 和 DM 执行点分布操作,使用规则网格上的场分布算法创建新的体积数据集(VS 和 VM)。
- 在相同计算域上的体积属性分布在规则网格上,生成密度场。
2. 收集器作业等待 VS 和 VM 准备好后生成新体积 VΔ,其每个体素显示 VS 和 VM 之间的密度值差异。
3. 对 VΔ 应用下限阈值过滤,将满足过滤条件的所有体素保存到文本文件中以便进一步分析。
4. 对 VΔ 进行多次渲染:
- 体积渲染。
- 密度场的等值面渲染,使用不同等值值生成全景电影。
- 正交切片渲染,即通过体积数据集的正交切片平面。

2.2 恒星演化模拟

拥有涵盖广泛恒星质量和初始化学成分的大量恒星演化模型,是解释银河系和河外星系(解析和未解析恒星群体)观测结果的必要前提。恒星演化模拟器生成一个合成模型(SM)。

Frascati Raphson Newton 演化代码(FRANEC)是恒星天体物理学的先进数值代码,非常适合根据多种不同物理输入和参数计算恒星演化。单次运行 FRANEC 生成一个合成模型(SM)。要通过全等时线运行(FIR)为给定化学成分生成等时线,需要执行大量 SM 运行,改变恒星模型的初始质量,这需要在 DCIs 上进行昂贵的计算。一旦计算出这些演化轨迹和等时线(及其他附加数据),就可以将其作为数据集分布在不同站点。

恒星模型的计算会生成带有一组相关元数据的模拟输出文件。这些元数据与数值演化代码的所有参数相关联,这使得可以存储并轻松搜索和检索大量恒星模拟获得的数据,还能访问大量同质数据,如使用 FRANEC 计算的轨迹和等时线。

FRANEC 工作流具有模块化架构,便于识别可用于构建其他工作流的可重用模块。模块可根据其功能区分:
1. EOS 计算模块 :以表格形式提供状态方程。输入值为金属丰度 Z 和混合物类型(比氦重的化学元素分布)。
2. OPACITY 计算模块 :从预计算表生成不透明度表。根据金属丰度值 Z 和混合物类型,获得从预计算表插值得到的新不透明度表。
3. FRANEC :工作流的核心模块。从 EOS 和 OPACITY 两个模块的输出以及用户提供的一组输入参数开始,生成恒星演化模型,这些参数包括恒星结构的质量(以太阳质量为单位)、初始氦丰度的质量分数、重元素丰度的质量分数、超绝热对流效率、质量损失效率、氢燃烧阶段的核心对流超射、扩散指数和演化阶段指数。它生成一组随时间变化的参数值、随模型半径变化的量、核心化学成分(随时间)、表面化学成分(随时间)和能量流(随时间)。
4. 输出后处理模块
- TAR :生成主要输出的压缩存档。
- GNUPLOT :生成输出图。

模块名称 功能 输入 输出
EOS计算模块 提供状态方程 金属丰度Z,混合物类型 状态方程表格
OPACITY计算模块 生成不透明度表 金属丰度Z,混合物类型 不透明度表
FRANEC 生成恒星演化模型 EOS和OPACITY输出,用户输入参数 恒星演化相关参数
输出后处理模块 - TAR 生成压缩存档 FRANEC输出 压缩存档
输出后处理模块 - GNUPLOT 生成输出图 FRANEC输出 输出图

2.3 LaSMoG 工作流流程图

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(DS和DM数据集):::process --> B(参数扫描处理):::process
    B --> B1(生成子样本和全景电影):::process
    B --> B2(创建VS和VM):::process
    B --> B3(生成密度场):::process
    B2 --> C(等待VS和VM):::process
    C --> D(生成VΔ):::process
    D --> E(过滤VΔ):::process
    E --> F(保存过滤结果):::process
    D --> G(渲染VΔ):::process
    G --> G1(体积渲染):::process
    G --> G2(等值面渲染):::process
    G --> G3(正交切片渲染):::process

2.4 PLANCK 任务

PLANCK 实验是欧洲航天局(ESA)的一项卫星任务,旨在对微波天空进行测绘。它通过多次全面的天空调查,在天空覆盖范围、频率覆盖范围、准确性、稳定性和灵敏度方面实现了前所未有的结合。该卫星于 2009 年 5 月发射,在 2013 年 10 月关闭前完成了八次全面的天空调查。不过,关闭后仍在继续进行数据缩减和分析工作。

这项任务对存储和计算需求极高,因为仪器测量的所有数据都要进行多次缩减和分析,以提高数据质量并完善最终科学结果。此外,还进行了大量数值模拟。模拟在该项目中至关重要,一方面能帮助我们理解给定仪器行为如何反映在观测到的天空信号上,另一方面也是构建实际数据缩减分析管道的测试平台。

通过 STARnet 门户运行的模拟任务是 PLANCK 模拟管道,即 LevelS。它能对两个 PLANCK 仪器进行逼真模拟,包括观测信号(如波束模糊和指向精度)和仪器噪声。这些模拟的主要目标是验证采集和缩减程序,也是运行蒙特卡罗模拟以估计宇宙学参数的核心软件。

LevelS 模拟对计算和存储需求很大,但能在像 EGI 网格这样的数据中心基础设施(DCI)上成功运行,DCI 也用于存储这些模拟产生的数据。在 STARnet 门户上实现 LevelS 模拟,可让需要运行不同参数 LevelS 模拟的研究人员专注于实际科学问题,而无需关注计算基础设施的使用。门户提供了简化的环境来管理计算任务。

LevelS 是一个管道结构,由多个基本阶段组成,每个阶段是一个应用于输入数据集并产生输出数据集的算法。阶段之间相互关联,但不一定是线性的。LevelS 的最终输出是按时间顺序排列的数据(TOD),即探测器输出的时间序列。在任何给定时间,每个探测器观测到的天空信号由宇宙微波背景(CMB)、银河系和河外星系前景发射与探测器波束模式卷积而成的混合物组成,并根据探测器特性添加仪器噪声。

我们选择了一个虽简单但包含不同软件模块的管道,其基本步骤如下:
1. 使用 cmbfast 从宇宙学参数创建 CMB 功率谱。
2. 使用 HEALPix 包中的 synfast 代码从 CMB 功率谱构建 CMB 地图。
3. 将 CMB 与具有各自频率相关强度的前景相结合,并将最终天空与模拟中考虑的每个探测器的波束模式进行卷积。
4. 通过引入仪器噪声来污染地图,将其计算并添加到“观测到的”天空信号中,从而构建 TOD。

为加快计算速度,我们假设航天器在同一指向位置时,两个连续扫描圈中的样本完全重叠。这样,对于同一指向位置对应的 60 个扫描圈,天空信号始终相同,因此只需模拟一次。

在 STARnet 门户中设计和部署的工作流从用户设计的一组初始宇宙学和仪器参数开始,实现 LevelS 管道并产生 TOD 模拟。TOD 数据还会被处理以生成仪器观测到的天空地图。

步骤 操作 工具
1 创建 CMB 功率谱 cmbfast
2 构建 CMB 地图 synfast(HEALPix 包)
3 结合 CMB 与前景并卷积 -
4 引入仪器噪声构建 TOD -

2.5 LevelS 工作流流程图

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(宇宙学参数):::process --> B(创建 CMB 功率谱):::process
    B --> C(构建 CMB 地图):::process
    C --> D(结合 CMB 与前景并卷积):::process
    D --> E(引入仪器噪声):::process
    E --> F(构建 TOD):::process
    F --> G(生成天空地图):::process

2.6 太阳系小天体的动力学演化

这一研究聚焦于解决与我们行星系统中小天体动力学相关的两个开放性问题,具体研究穿过太阳系外层的星际彗星轨迹以及流星体流的演化,包括研究其母体的动力学特性。

2.6.1 星际彗星

穿过太阳系的星际彗星轨迹会受到银河潮汐的引力影响。这种影响与太阳引力的共同作用可能改变彗星轨迹,使其被太阳系束缚,成为奥尔特云彗星的一部分。考虑到太阳在银河系中的当前位置及其相对较高的特殊速度,彗星轨道相空间中发生“捕获”的区间极其狭窄。此外,对该问题的初步分析表明它是非线性的,所以“捕获窗口”可能会因彗星轨道参数的意外组合而出现(不能简单地寻找数学局部最小值)。

COMCAPT(COMets CAPTure)应用程序会为大量星际彗星轨迹(数量级约为 10¹²)计算捕获的关键参数,并评估给定的 4 - D 轨道特征组合是否满足捕获条件。该应用程序预计会针对两个输入值的各种组合重新运行,即太阳到银河系中心的距离和太阳相对于本地静止标准的特殊速度大小。

设计用于在 gLite 网格基础设施上运行的工作流如下:
1. 将输入数据复制到存储元素(SE)。
2. 运行管理例程,根据网格中可用 CPU 数量,将 SE 上的各个子任务拆分到各个计算元素(CE),计算给定子周期的捕获关键参数,并将输出结果移回 SE。
3. 收集并下载计算结果数据。为此,使用了 gUSE 工作流解释器的参数扫描功能。“拆分”节点是一个生成器,为 COMCAPT 提供输入,COMCAPT 会根据生成的输入数量执行相应数量的作业实例,并计算一些关键参数。基于这些参数,COMCAPT 评估给定子输入数据组合下,星际彗星是否会被捕获到奥尔特云。

步骤 操作
1 复制输入数据到 SE
2 拆分任务到 CE 计算关键参数并移回结果到 SE
3 收集并下载结果数据

2.7 COMCAPT 工作流流程图

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(输入数据):::process --> B(复制到 SE):::process
    B --> C(拆分任务到 CE):::process
    C --> D(计算关键参数):::process
    D --> E(移回结果到 SE):::process
    E --> F(收集并下载结果):::process

综上所述,STARnet 架构及其托管的各种科学应用程序为天文学研究提供了强大的支持。通过简化计算任务管理、实现数据共享和工作流传播等功能,让天文学家能够更专注于科学问题本身,有望在宇宙学、恒星演化、太阳系小天体研究等多个领域取得重要进展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值