论文阅读:Applications of AI in Astronomy人工智能在天文中的应用

 一、背景简介

随着20世纪90年代早期的数字天空学兴起和由此产生的千兆数据集,天文学进入了大数据时代。天气观测和时域天文学的发展更让数据以指数形式增长,由此产生的数据流需要进行实时处理、分类和决策。各种各样的分类和聚类方法已经被应用于这些任务。在过去的十年里,我们已经看到了天文文献中涉及到日益复杂的各种ML/AI成指数级增长。ML和AI现在是天文学必不可少的工具。

根据天体物理学数据系统(ADS;https://ui.adsabs.harvard.edu)的数据,在2021年,大约有1000篇天文学/天体物理学论文涉及ML或人工智能。

ML/AI为以后研究更高等级的数据带来了额外的增值,可能包括了目标检测,分割任务,结构和形态学分类。虽然监督分类工具在架构上无法检测任何在训练集中没有出现过的物品,但无监督的聚类提供了另一种探索未知物品的可能,他能够检测少样本或者根本未学习过的类型来作为特征空间中的异常值。

二、早期应用:数字天文学

随着第一个大型数字天空测量的出现,在90年代中期机器学习的应用开始激增。最初的应用程序是为了自动化由人类完成的重复性任务。在识别单个来源的图像分割之后,对每个输入目标评估数十到数百个形态和结构参数,从而形成可以使用ML工具进行分析的特征向量。从本质上说,最初的tb图像和现在pb的图像被转换成数百万到数十亿特征向量的数据目录,每个目录代表单个检测源,即使多个目录合并后仍然有在数百甚至数千维的数据空间。

在可见光、紫外和红外波长范围内,一级分类在未解析的源(“恒星”)和已解析的源(“星系”)之间,纯粹基于图像形态,通常使用监督分类方法如人工神经网络(ANN)或决策树(DT)。形态学分类可以用来识别和删除人为造成的影响因素,即异常值。用物理形态进一步分类为不同类型的物体,如星系恒星与类星体、不同类型的星系、不同类型的恒星等,将需要更多数据。

传统的点观测模式侧重于单个物体或物体的小样本。天文学有多达上亿个检测目标,ML可以用大型或太空望远镜来选择感兴趣的目标,从而优化资源的使用。在监督分类器或特征空间中应用切割已被证明有效性。

三、面临挑战:时域天文学

天文探测器的尺寸、质量和成本的提高使得成像拥有更多格式,这反过来又引领天气监测的兴起,即大面积的天空被反复研究。时域的开放使对各种现象的系统的、大规模的研究成为可能,包括恒星和活动星系核的变化、各种宇宙爆炸(例如,许多类型的超新星、引力波事件等),正在移动的物体,如有潜在危险的小行星等。时域本质上是一种全景宇宙摄影,涉及天文学的所有领域,从太阳系到宇宙学。

除了传统的方法,还添加在分类任务中引入了变化的信息,以及连续变化事件的时间临界性。这就要求识别检测必须拥有实时性。

除了全电磁(EM)光谱外,引力波、高能宇宙射线和中微子天文台现在也提供了大量的数据,打开了多信源天文学的领域。一般来说,非电磁通道有非常差的角度分辨率和方向性,但识别其电磁对应物对其物理解释至关重要。这导致了大范围的并行搜索,有许多潜在的候选标签。ML方法可用于对可能的候选对应物进行分类,或是仔细检查和分类非em信号本身。

分类中重点在于分类算法与特征空间维数的缩放较差。这在时域中尤为重要。从几十到几百个维度的变换中并不是都是独立的(正交的),有些增加了特定类的噪声,这使得降维成为一个关键的需要。对于多类分类,消除对一个类很重要但对另一个类不重要的歧义是有必要的。一个例子是为Zwicky Transient Facility(ZTF)使用二进制分类器。当外部特性被合并时,可能会有缺失的特性,这将使一些ML技术的使用更加复杂。

另一种选择是采用概率方法,将观察到的时间序列看作是一个多元高斯分布的均值样本或协方差函数。然后预测的点只是代表随后的绘制,可以用相关的不确定性函数来计算。高斯过程回归(GPR)使用观察到的数据来学习潜在的协方差核的超参数。核函数底层过程的特定属性,如平稳性、自回归行为或谱密度表示,都很容易表示。事实上,在某些GPR内核和神经网络架构之间存在理论上的二偶性,神经网络也可以直接作为某些GPR实现中的内核。

使用GPR的主要问题是拟合速度,特别是对于具有数千个数据点和/或包含数千个样本的大型多维数据集。因为这通常涉及广泛的矩阵反演。某些GPR实现通过对核函数的函数形式做出具体的决策,已经实现了良好的性能,例如,它只使用指数项,并进行相应的优化,但这不是一个全局解决方案。目前还不清楚GPR在预测数据方面的表现。随着前一观测数据点后时间的增加和不确定性的增加,非周期核有回归到均值的趋势。循环神经网络似乎表现更好,但也多用于预测下一个数据点,而不是在较长时间范围内的数据。显然,如果底层过程是非线性的,将导致更差的结果,并且需要更高级的深度学习架构。

ML分析中误差范围是一个重大挑战,再加上对接近探测极限的物体进行分类,提出了一种非常不同的挑战。观察越来越暗的物体有助于将科学推向较新的领域。

未知的待检测目标存在难度。首先很难定义异常:它是一个分布外的对象,一个完全独立的还是新的类?更多的观察会有利于这样一种解释或另一种解释吗?需要什么样的观察呢?主动学习,更新的观察迭代用于改进分类,通常表明需要在模糊边界修改分类。然而,后续资源是有限的,并且随着数据速率的不断增长,优化其使用变得至关重要。

四、应用环境

虽然分类和异常检测是基于深度学习的天文学的主要内容,也有更多的应用范围。其中有是光度红移(光z)的估计。在宇宙学中,红移,反映了宇宙尺度的增加,因为光是由一些遥远的物体发出的,由于宇宙膨胀是针对距离,因此在确定遥远的星系和类星体的物理参数时是必要的,如它们的亮度、质量等。传统上,红移是用光谱测量的,这在观测上是昂贵的。photo-z是一种从多色测光法中估计红移的方法,这在观测上要便宜得多,因此可以处理更多的物体。这是一个用例,其中ML通过包括通过数据隐式表达的仪器特征和物理模型,使观察时间有了显著的节省。

ML也用于引力透镜,它可以对来自天空的图像和类星体变异性的时间序列进行操作。系统的、大规模的引力透镜样本可以用作暗物质和宇宙膨胀率的检测。除了通过观测获得的数据外,大型数值模拟的输出也需要进行自动分析。目前的经典计算物理模型结合ML模型的混合方法,可以通过ML模型来替换耗时的计算,这些模型的变体,与原始代码相似。因此,可以通过具有更高的空间和时间分辨率来计算更大的体积,而不需要更多的资源。另一方面是,可以检测到关键的分支条件,并且可以自适应地改变模拟的分辨率,以确保这些细节在模拟时不会丢失。

五、总结展望

虽然人工智能在天文学中的应用范围和多样性在持续发展,但到目前为止,大多数应用都集中在从已经获得的数据集及其衍生数据产品的分析,如预提取表和专用特征。然而,ML/AI格局也在迅速发生变化,影响了以数据为中心的方法、数据采集、处理和分析的不同阶段。

采集阶段包括计划和执行观察的过程。在大多数情况下,这个过程是由人力来完成的,但根据特定的标准,人工智能系统可以学会自动执行。通过对初始数据的快速分析,仪器设置、曝光时间等,可以关闭选择正确的观测设置和获得高质量的科学数据之间的循环。这种快速的、基于人工智能的观测规划和控制系统很可能会取代目前的方式,从而提高其在观测质量和数量上的结果。这在时域和多信源天文学领域是至关重要的,在这些领域,异常事件可能被短时发现并跟踪,所以优先级是至关重要的。

将领域知识纳入ML/AI分析,如“基于物理”的人工智能是一个活跃的研究领域,仍存在许多突出的挑战。除了分析科学数据外,ML方法还被用于访问复杂的内容,如科学出版物,或实现对存储在目录中的数据。基于ML和人工智能的系统可能很快改变查找和访问数据的方式。同样,ML可以用于对给定一组用户偏好的文献进行排序。

另一个方向是使用人工智能从数据中寻找潜在关系。例如符号回归和模因回归。随着数据复杂性的不断增加,使用人工智能来检测数据中存在的模式或行为将会完全自主。例如,虽然数据的高维性不断增加,对这些基于人工智能的解释仍然取决于人类,但其中一些发现可能只是超过了人类的认知能力。人与人工智能结合发现新目标的目标将成为新的方式。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值