关于iEnhancer-EL论文笔记

关于iEnhancer-EL由来

在控制基因的表达中,增强因子和其强度在其中充当很重要的成分。尽管目前生物工具已经发展,但仍然有限制,仅仅只能识别增强因子和非增强因子。而iEnhancer-EL预测器是即能识别是否是增强因子又能识别其强度的新型预测器。

iEnhancer-EL结构

iEnhancer-EL预测器包含2层预测结构。第一层(用于识别增强因子)是通过六个关键的单分类器组成的。第二层(用于识别其强度)是通过十个关键的单分类器组成的。这些分类器都是在SVM(支持向量机)形成的171基本分类器中选择的,这些分类器基于kmer,subsequence profile, PseKNC。

关于识别增强因子,前人所用过的方法

为了快速鉴定基因组中的增强因子,已经开发了几种计算预测方法:
1、CSI-ANN
此预测方法是通过‘人工神经网络’实现的。
2、EnhancerFinder
此预测方法是通过‘内核学习方法’实现的。
3、RFECS
此预测方法是通过‘随机森林算法’实现的。
4、BiRen
此预测方法是通过‘深度学习’实现的。
5、EnhancerDBN
此预测方法是通过‘深度信念网络’实现的。
但这之前的这几类方法精度都不是很高,所以还有改进的空间。

开发精准生物系统预测器的步骤

1、建立基准数据集
2、样品配方
3、运算方法设计和算法
4、交叉验证
5、网络服务器

数据集

有1484个增强因子样本,1484个非增强因子样本。其中增强因子样本中有742个强增强因子样本,非增强因子样本中有742个弱非增强因子样本。

数据的处理

由于现有的机器学习只能处理向量,而不能处理向量序列,并且离散模型中定义的向量可能会完全丢失所以序列模式信息。所以此论文DNA序列样品通过BioSeq-Analysis工具进行处理。

三种DNA序列表达方法

1、Kmer
kmer是最简单的表示DNA序列,其中DNA序列表示为k个相邻核酸的出现频率。
2、Subsequence profile
subsequence profile允许非连续错配,弥补了kmer的不足。
3、Pseudo k-tuple nucleotide composition
pseknc能够将其纳入短程或本地序列顺序信息和远程或全局序列模式信息和六个DNA中二核苷酸的物理化学性质。
三种表达方法适用范围不同,复杂程度也不同。

核心操作分类器

在此论文中使用SVM来进行预测。
在kmer的序列中可以使用六种分类器,在subsequence profile的序列中可以使用十五种分类器,在pseknc中可以使用一百五十种分类器。

集成学习

通过投票系统将一系列独立预测变量融合而形成的整体预测变量可以产生更好的预测结果。
开发集成学习预测器有两个基本问题,一是如何选择关键的个体分类器来减少噪声,二是如何将选定的关键分类器融合为一个最终分类器。是值得我们做集成学习时思考的问题。

交叉验证

主要讨论验证一个结果好坏的标准有哪些指标
Acc、MCC、Sn、Sp、AUC

最后为其结果

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值