Exoplanet Transit Candidate Identification in TESS Full-Frame Images via a Transformer-Based Algorithm
https://arxiv.org/abs/2502.07542
摘要
本文提出了一种基于 Transformer 的神经网络模型,用于在 TESS(凌星系外行星 勘测卫星, Transiting Exoplanet Survey Satellite)的全帧图像(FFI)中直接检测 系外行星凌日信号(exoplanetary transit signals)。
与传统的相位折叠方法不同,该模型无需假设凌日信号的周期性,能够直接从光变曲线中识别凌日信号。通过多头自注意力机制,模型能够捕捉光变曲线中的长距离依赖关系,并结合背景和中心时间序列数据,有效区分行星凌日和其他变化源。
模型在 TESS 的第 1-26 区段中成功识别了 214 个新的行星系统候选者,包括 122 个多次凌日光变曲线、88 个单次凌日和 4 个多行星系统。
引言
随着天文数据的快速增长,自动化方法在系外行星检测中变得越来越重要。
TESS 任务已经发现了数千颗系外行星候选者,但传统方法依赖于相位折叠和周期性假设,可能会错过一些非周期性或单次凌日信号。
本文提出的方法通过 Transformer 模型直接处理光变曲线,避免了这些限制。
方法
- 数据预处理:对 TESS 的光变曲线进行标准化处理,确保每条光变曲线长度为 1000 个数据点,并进行归一化处理。
- 神经网络架构:结合卷积神经网络(CNN)和 Transformer 编码器,CNN 用于提取局部特征,Transformer 编码器用于捕捉全局依赖关系。
- 训练数据增强:通过添加噪声、随机滚动、分割交换和镜像翻转等技术增强训练数据,防止过拟合。
- 真实数据集:使用 TESS 的已知系外行星、食双星(EBs)和非凌日信号作为训练数据,并通过注入光变曲线生成更多训练样本。
图1:(a)Transformer encoder,它使用位置编码与输入嵌入相结合来处理时间序列输入,并通过自注意力机制计算特征表示。
(b)自注意力机制,其中Q、K矩阵用于计算注意力分数。然后这些分数被应用于V来生成自注意力特征图。
模型用于训练和评估的 标签和数据集:
下图展示了提出的架构的示意图。架构的输入包括通量、质心和背景的时间序列数据,这些数据被整合成输入嵌入,并经过卷积嵌入处理。
处理后的数据(称为标记),结合位置编码,通过变压器编码器中的多头自注意力(MSA)机制进行处理。
变压器编码器输出的特征嵌入随后通过平均池化层,再由一个前馈的多层感知机(MLP)头进行分类预测。
预测的输出通过损失函数 H(y^, y)进行评估,以将输入数据分类为两个类别(0或1)中的一个。
CNN 嵌入的过程
在这个过程中,内核在输入的时间序列上滑动,将每个局部窗口的数据转换成一个嵌入向量。
这种转换能够捕捉到时间序列中的局部特征,并将其编码为固定长度的向量,便于后续处理和分析。
结果
- 模型性能:模型在 AUC-ROC 和 F1 分数上表现良好,特别是在结合背景和中心时间序列数据时,性能显著提升。
- 新候选者识别:模型在 TESS 的第 1-26 区段中识别了 214 个新的行星系统候选者,包括多次凌日、单次凌日和多行星系统。
- 假阳性分析:尽管模型在区分假阳性方面表现良好,但仍存在一些误报,特别是在背景恒星污染的情况下。
结论
本文提出的基于 Transformer 的模型能够在不依赖周期性假设的情况下检测系外行星凌日信号,特别是在识别单次凌日和长周期行星方面表现出色。
未来的工作将集中在改进模型以检测更小的行星(如地球大小的行星),并扩展到 TESS 的其他数据区段。
未来工作
- 分析 TESS 的更多数据区段以识别新的候选者。
- 改进模型以更准确地检测较小的系外行星。
- 为未来的天文任务(如 PLATO 和 Nancy Grace Roman 空间望远镜)开发新的检测架构。
致谢
感谢 ANID、NASA 等机构的支持,以及 TESS 和 Gaia 任务提供的数据。
数据可用性
所有数据均来自 Mikulski Archive for Space Telescopes (MAST) 和 Gaia 任务。
核心贡献
- 创新方法:提出了一种基于 Transformer 的模型,无需相位折叠或周期性假设,直接处理光变曲线以检测系外行星凌日信号。
- 多任务检测:模型能够同时检测多次凌日、单次凌日和多行星系统,扩展了传统方法的检测范围。
- 性能提升:通过结合背景和中心时间序列数据,模型在区分真实凌日和假阳性方面表现出色。
技术细节
- Transformer 编码器:通过自注意力机制捕捉光变曲线中的长距离依赖关系。
- CNN 嵌入:用于提取光变曲线中的局部特征,增强模型的局部模式识别能力。
- 数据增强:通过多种增强技术提高模型的泛化能力,防止过拟合。
应用前景
该模型为未来的系外行星探测任务提供了新的工具,特别是在处理大规模天文数据时,能够有效识别传统方法可能忽略的行星候选者。
2025-02-16(日)