论文解读：利用堆叠框架计算预测和解释来自多个真核生物的细胞特异性复制起点

最新推荐文章于 2024-06-04 15:12:27 发布

唐小星小宇宙

最新推荐文章于 2024-06-04 15:12:27 发布

阅读量809

点赞数 1

文章标签：机器学习人工智能

原文链接：https://pubmed.ncbi.nlm.nih.gov/33152766/

版权

Computational prediction and interpretationof cell-specific replication origin sites from multipleeukaryotes by exploiting stacking framework

论文期刊：Briefings in Bioinformatics

中科院分区：二区

数据集：http://thegleelab.org/Stack-ORI

doi : 10.1093/bib/bbaa275

整体的文章框架

数据集收集

四种生物类别数据（序列长度 300）

(H. sapiens M. musculus D. melanogasterand A.thaliana)

四个种类分为十个数据集，并划分为训练集和独立测试集

特征工程

使用12种不同的DNA序列编码方案，基于四种类型的核酸（‘A’, ‘C’, ‘T’, ‘G’）的序列，将他们转换为固定长度的数字特征编码。同时我们将这12种编码方案按照基于成分，基于位置和基于物理化学性质划分为三组。

基于成分的特征编码方案（CKSNAP , Kmer , PseKNC , PseDNC , PseTNC）

基于位置的特征编码方案（NUM , LPDF , RFHC , BPF）

基于物理化学性质的特征编码方案（DPCP , TPCP , EIIP）

Kmer：Kmer频率表示给定序列中K个相邻核酸的出现频率。k被设置为2、3、4和5，其中每个核苷酸组成特征向量被连接并产生1360维(D)特征向量。{2-mer （16维），3-mer(64维），4-mer(256维），5-mer(1024维）}

CKSNAP：CKSNAP编码方案计算由任意核酸分隔的核酸对的出现频率。k设置为1,2,3,4,5。我们获得16个0间距的二核苷酸对(‘AA’，‘AT’，‘ AG’, ‘ AC’, ‘GG’, ‘GT’, ‘GA’, ‘GC’, ‘CC’, ‘CT’, ‘CA’, ‘CG’, ‘TT’, ‘TA’, ‘TG’, ‘TG’)，特征向量被定义为：

CKSNAP生成了一个96D的特征向量。

PseDNC：PseDNC包含两个不同的连续序列-顺序信息，包括局部和全局。其计算方法如下：

XGBoost classifier

XGBoost分类器效果好坏取决于迭代次数(n_estimators)，学习率（leaning rate），最大深度（max depth），和正则化参数(ε)等这些超参数，同时使用了网格搜索方法进行了优化，搜索范围迭代次数{ 40-500 间隔为20 }，学习率{0.0001, 0.001,0.01, 0.05, 0.1, 0.2, 0.25, 0.3, 0.5, 1.0} ，最大深度{2, 4, 6, 8, 10, 12, 14} ，正则化参数{0.0001, 0.001, 0.002, 0.01,0.02, 0.05, 1.0} 共11270（23*10*7*7）种组合方式

堆叠（stacking）

stacking：stacking是一种分层模型集成框架。以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练，从而得到完整的stacking模型。模型融合之后能够小幅度的提高模型的预测准确度。

两步特征选择

通常，在原始特征维度中，并非所有的特征贡献均等。一些特征可能是多余的，并且在最终预测中没有太大的贡献，我们需要从原始特征维度中排除此类信息，以此来提高性能和训练速度。

一、使用F-score算法对原始特征维度进行排序，并按降序排列，从而生成排序后的特征列表。

二、从排名列表中选择两个特征并依次添加到 XGBoost 分类器中，并使用 10 倍交叉验证。因此，使用不同的特征集生成多个预测模型，比较并选择 MCC 性能达到最高的模型，其对应的特征集被视为最佳特征集。

评价指标

使用七个指标来评估和比较预测性能，包括 MCC、灵敏度 (Sn)、特异性 (Sp)、准确度 (ACC)、F1 -score 、ROC)和曲线 (AUC)。指标的定义如下：

结果和讨论

用12种不同的特征编码方式十次交叉验证，用于预测10个不同细胞特定数据集的复制起始位点（ORIs），评估其使用XGBoost区分ORI和非ORI的能力

分析图中数据可得：

1、在K562和MCF7数据集情况下，基于成分的编码（CKSNAP、Kmer、PseKNC、PseDNC 和 PseTNC）和基于物理化学性质的编码（DPCP、TPCP 和 EIIP）具有相似的预测性能，且优于基于位置的编码（LPDF、NUM、RFHC 和 BPF）。

2、在另外五个数据集中（Hela、MEF、P19、Bg3 和 S2），我们得到了相反的结果，基于位置的编码性能优于基于成分和基于物理化学性质的编码。

3、在Kc数据集上，三种方式的特征编码的性能相差无几

4、在ES和AT数据集上，基于位置的编码性能较好

原始特征和最优特征在性能和特征维度上的比较

图A 比较了12种基于不同的编码方式的最佳模型的平均MCC

通过两步特征选择优化，MCC在Hela数据集上的性能得到了显著提高，在其他的数据上性能均有所提高

图B 对于每个数据集，给出所识别的平均最优特征维度

总的来说，两步特征选择显著降低了特征维数，从而提高了预测性能和训练速度。

与现有方法在训练数据集上的性能比较

与现有方法在独立数据集上的性能比较

Stack-ORI与其各自的12个基线模型在训练数据集和独立数据集上预测ORI的性能比较

结论

我们介绍了Stack-ORI，一种堆叠方法，用于从细胞特定的多个物种中准确预测ORIs。STACK-ORI采用了12种不同的特征编码方案，包括理化特性、特定位置和成分信息。所有这些编码对应的最优特征集通过两步特征选择方法进行识别，然后使用XGBoost建立其预测模型。这些模型的预测概率得分被整合在一起以此建立一个稳定的堆叠模型。

唐小星小宇宙

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
论文解读：利用堆叠框架计算预测和解释来自多个真核生物的细胞特异性复制起点

数据集收集四种生物类别数据(H. sapiens M. musculus D. melanogasterand A.thaliana)特征工程使用12种不同的DNA序列编码方案，基于四种类型的核酸（‘A’, ‘C’, ‘T’, ‘G’）的序列，将他们转换为固定长度的数字特征编码。同时我们将这12种编码方案按照基于成分，基于位置和基于物理化学性质划分为三组。基于成分的特征编码方案（CKSNAP , Kme...
复制链接

扫一扫