Computational prediction and interpretationof cell-specific replication origin sites from multipleeukaryotes by exploiting stacking framework
论文期刊:Briefings in Bioinformatics
中科院分区:二区
数据集:http://thegleelab.org/Stack-ORI
doi : 10.1093/bib/bbaa275
整体的文章框架
数据集收集
四种生物类别数据(序列长度 300)
(H. sapiens M. musculus D. melanogasterand A.thaliana)
四个种类分为十个数据集,并划分为训练集和独立测试集
特征工程
使用12种不同的DNA序列编码方案,基于四种类型的核酸(‘A’, ‘C’, ‘T’, ‘G’)的序列,将他们转换为固定长度的数字特征编码。同时我们将这12种编码方案按照基于成分,基于位置和基于物理化学性质划分为三组。
基于成分的特征编码方案(CKSNAP , Kmer , PseKNC , PseDNC , PseTNC)
基于位置的特征编码方案(NUM , LPDF , RFHC , BPF)
基于物理化学性质的特征编码方案(DPCP , TPCP , EIIP)
Kmer:Kmer频率表示给定序列中K个相邻核酸的出现频率。k被设置为2、3、4和5,其中每个核苷酸组成特征向量被连接并产生1360维(D)特征向量。{2-mer (16维),3-mer(64维),4-mer(256维),5-mer(1024维)}
CKSNAP:CKSNAP编码方案计算由任意核酸分隔的核酸对的出现频率。k设置为1,2,3,4,5。我们获得16个0间距的二核苷酸对(‘AA’,‘AT’,‘ AG’, ‘ AC’, ‘GG’, ‘GT’, ‘GA’, ‘GC’, ‘CC’, ‘CT’, ‘CA’, ‘CG’, ‘TT’, ‘TA’, ‘TG’, ‘TG’),特征向量被定义为:
CKSNAP生成了一个96D的特征向量。
PseDNC:PseDNC包含两个不同的连续序列-顺序信息,包括局部和全局。其计算方法如下:
相关函数:
PseDNC 使用六个 DNA 局部结构特性(倾斜、上升、滚动、滑动、移位和扭曲)进行编码。我们设置β=1 和ω=2 生成了一个18D 的特征向量。
PseKNC:
f,β,ω,ηm分别代表寡核苷酸频率、权重因子、伪成分总数和m层相关因子。
相关函数:
PseTNC:PseTNC 包含了 TPCP
相关函数:
Num:A、T、G、C分别代表0.25、0.50、0.75和1.0。Num为给定的DNA序列生成300D特征向量。
BPF(相当于one-hot编码):BPF提供特定位置的核酸信息,其中每个核酸由一个四维二进制向量(0/1)表示。其计算方法如下:
对于给定的序列,得到1200D(4×300)的特征向量。
EIIP:{A, T , G, C} 的 EIIP 值 ∈ {0.1260, 0.1335, 0.0806, 0.1340}
使用EIIP获得了一个64维特征向量
DPCP :DPCP 计算如下:
使用了15种物理化学性质,DPCP编码成一个240维(15*16)的向量
TPCP :TPCP 计算如下:
使用了11种物理化学性质,TPCP编码成一个704维(64*11)的向量
RFHC:NCP和ANF的组合
在NCP中,核酸根据其生物性质分为三类,(官能团,环,氢)
(i)(A,C)和(G,T)分别具有氨基和酮基;
(ii) (A, G) 和 (C, T) 分别属于嘌呤和嘧啶;
(iii) (A, T) 和 (C, G) 具有两个和三个氢键
A,T,G,C分别被表示为(1,1,1),(0,0,1),(0,1,0)和(1,0,0)
核苷酸 (di) 的 ANF 计算如下:
通过RFHC编码将一个300个核苷酸的序列编码成了一个1200维(4*300)的向量
LPDF:LPDF 是 DNF 和 DBE 的组合。
DNF 计算为:
DBE提供二核苷酸位置信息。例如,AA,AC,AT分别被编码为(0,0,0,0)、(0,0,0,1)和(0,0,1,0)
DNF形成299维特征向量,DBE形成1196维特征向量,将两者连接起来,生成了一个1495维的特征向量。
XGBoost classifier
博客推荐:https://blog.csdn.net/v_JULY_v/article/details/81410574
XGBoost分类器效果好坏取决于迭代次数(n_estimators),学习率(leaning rate),最大深度(max depth),和正则化参数(ε)等这些超参数,同时使用了网格搜索方法进行了优化,搜索范围 迭代次数{ 40-500 间隔为20 },学习率{0.0001, 0.001,0.01, 0.05, 0.1, 0.2, 0.25, 0.3, 0.5, 1.0} ,最大深度{2, 4, 6, 8, 10, 12, 14} ,正则化参数{0.0001, 0.001, 0.002, 0.01,0.02, 0.05, 1.0} 共11270(23*10*7*7)种组合方式
堆叠(stacking)
stacking:stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练,从而得到完整的stacking模型。模型融合之后能够小幅度的提高模型的预测准确度。
博客推荐:https://blog.csdn.net/wstcjf/article/details/77989963
两步特征选择
通常,在原始特征维度中,并非所有的特征贡献均等。一些特征可能是多余的,并且在最终预测中没有太大的贡献,我们需要从原始特征维度中排除此类信息,以此来提高性能和训练速度。
一、使用F-score算法对原始特征维度进行排序,并按降序排列,从而生成排序后的特征列表。
二、从排名列表中选择两个特征并依次添加到 XGBoost 分类器中,并使用 10 倍交叉验证。因此,使用不同的特征集生成多个预测模型,比较并选择 MCC 性能达到最高的模型,其对应的特征集被视为最佳特征集。
评价指标
使用七个指标来评估和比较预测性能 ,包括 MCC、灵敏度 (Sn)、特异性 (Sp)、准确度 (ACC)、F1 -score 、ROC)和曲线 (AUC)。指标的定义如下:
结果和讨论
用12种不同的特征编码方式十次交叉验证,用于预测10个不同细胞特定数据集的复制起始位点(ORIs),评估其使用XGBoost区分ORI和非ORI的能力
分析图中数据可得:
1、在K562和MCF7数据集情况下,基于成分的编码(CKSNAP、Kmer、PseKNC、PseDNC 和 PseTNC)和基于物理化学性质的编码(DPCP、TPCP 和 EIIP)具有相似的预测性能,且优于基于位置的编码(LPDF、NUM、RFHC 和 BPF)。
2、在另外五个数据集中(Hela、MEF、P19、Bg3 和 S2),我们得到了相反的结果,基于位置的编码性能优于基于成分和基于物理化学性质的编码。
3、在Kc数据集上,三种方式的特征编码的性能相差无几
4、在ES和AT数据集上,基于位置的编码性能较好
原始特征和最优特征在性能和特征维度上的比较
图A 比较了12种基于不同的编码方式的最佳模型的平均MCC
通过两步特征选择优化,MCC在Hela数据集上的性能得到了显著提高,在其他的数据上性能均有所提高
图B 对于每个数据集,给出所识别的平均最优特征维度
总的来说,两步特征选择显著降低了特征维数,从而提高了预测性能和训练速度。
与现有方法在训练数据集上的性能比较
与现有方法在独立数据集上的性能比较
Stack-ORI与其各自的12个基线模型在训练数据集和独立数据集上预测ORI的性能比较
结论
我们介绍了Stack-ORI,一种堆叠方法,用于从细胞特定的多个物种中准确预测ORIs。STACK-ORI采用了12种不同的特征编码方案,包括理化特性、特定位置和成分信息。所有这些编码对应的最优特征集通过两步特征选择方法进行识别,然后使用XGBoost建立其预测模型。这些模型的预测概率得分被整合在一起以此建立一个稳定的堆叠模型。