摘要
iDNA-ABF是一个多尺度的深度生物语言学习模型, 能够仅基于基因组序列对DNA甲基化进行可解释的预测。
背景
5-甲基胞嘧啶(5mC)、N6-甲基腺苷(6 MA)和4-甲基胞嘧啶(4mC)是三种主要的DNA甲基化类型,根据核苷酸的类型、添加的分子类型和核苷酸内的修饰位置来命名。
将基因组序列视为“生物学文本”,并将不同尺度的顺序决定因子视为不同的“生物学词”。因此,我们提出了一种多尺度的生物语言学习模型——iDNA-ABF,成功地构建了从自然语言到生物语言的映射,以及从甲基化相关序列决定因素到它们的功能的映射。引入了一个经过大规模基因组序列预训练的模型来学习生物上下文语义,并提出了一种多尺度处理策略来从不同尺度捕获鉴别甲基化信息。我们进一步利用对抗训练和迁移学习来改善预测性能,增强模型的鲁棒性。模型通过探索基于注意机制的局部序列特征,在序列水平上提供了可解释的预测和分析。
AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
AP就是PR曲线与X轴围成的图形面积。