![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
特征工程
ShenggengLin
这个作者很懒,什么都没留下…
展开
-
使用机器学习来测量基因间的相关性:一个多特征模型(Using Machine Learning to Measure Relatedness Between Genes)
1. 摘要 测量一对基因间的条件亲缘关系是计算生物学的一项基本技术,也是一个重大的挑战。论文提出了一个新的机器学习模型—多特征相关性(MFR),通过将表达相似度和基于先验知识的相似度纳入评估标准,来准确地测量一对基因之间的条件相关性。2. 介绍 基因之间的相互作用通常被建模为一对基因之间0/1(非相互作用/相互作用)的二元关系,而亲缘性则意味着一对基因之间的某种程度的关系。 相关性可以通过两种特征来衡量:表达相似度和基于先验知识的相似度。第一种特性通常是在一定条件下测量一对基因的共原创 2020-10-07 21:01:45 · 5241 阅读 · 1 评论 -
一种特征选择算法TriVote(An OMIC biomarker detection algorithm TriVote and its application )
1. 摘要 转录组和甲基化组模式是受可遗传信息和环境因素影响的两大主要基因组数据来源,已被广泛用作疾病诊断和预后的生物标志物。现代转录组和甲基化组分析技术可以检测到人类基因组中数以万计甚至数以百万计的探测残留物的状态,并对现有的特征选择算法提出了一个重大的计算挑战。本研究提出一种三步特征选择算法,TriVote,以检测具有高精确度的二分类性能的转录组或甲基化组子集。TriVote在17个转录组和2个甲基化组上均优于其它特征选择算法,具有更高的分类精度和更小的特征数。此外,文章还讨论了TriVote检原创 2020-10-07 21:00:04 · 5731 阅读 · 0 评论 -
RIFS:一种随机重启的增量特征选择算法(RIFS: a randomly restarted incremental feature selection algorithm)
1. 摘要 大数据时代的到来给机器学习研究者带来了运行时间和学习效率的挑战。生物医学基因组研究就是其中一个大数据领域,它极大地改变了生物医学研究。但是数据生产的高成本和招募参与者的困难将“大p小n”的范式引入到生物医学研究中。特征选择通常用于减少生物医学特征的数量,从而实现一个稳定的数据独立的分类或回归模型。本研究随机改变广泛使用的增量特征选择(IFS)策略的第一个元素,选择可能被统计关联评价算法排序较低的最佳特征子集,如t检验。假设可以通过编排两个低等级的特征来获得较好的分类性能。提出的随机重启动原创 2020-10-07 20:56:05 · 6922 阅读 · 0 评论