机器学习应用于组学数据时常见的坑

最新推荐文章于 2023-12-28 09:00:33 发布

子诚之

最新推荐文章于 2023-12-28 09:00:33 发布

阅读量694

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_39288981/article/details/125818480

版权

维度灾难

组学数据集中的特征数一般远大于样本数，直接应用机器学习可能导致过拟合问题。
理论上，可以通过在目标函数中引入正则项来解决上述问题。实践上还需要通过交叉验证估计正则项参数值。

交叉验证

交叉验证包括将数据集划分为训练集、模型选择集和测试集。训练集用于学习不同模型的参数，包括正则/复杂度参数。模型选择集用于评估不同模型的性能，并找到泛化误差最低的模型。测试集用于确认模型性能。如果在测试集上的表现与在模型选择集上的表现一致，一般认为避免了过拟合。
然而组学数据集的样本数通常较少，不足以划分为三个较大的数据集，因而在交叉验证中经常把训练集和模型选择集合并在一起。训练集进一步被分为n个相同大小的bags，其中n-1 bags用于训练，left-out bag作为模型选择集。然而由于样本太小，单个left-out bag不能用于误差估计和模型选择。需要通过重复分析来避免该问题。
另一个常见的错误是使用全部训练集数据筛选过的特征进行交叉验证，将导致高估性能。使用嵌套CV循环策略可以避免该问题。

混淆

组学数据集来源于单个研究时，可能会受到混淆因素的影响。由于随机划分数据集不一定消除混淆因素的影响，因而模型在训练集和测试集上仍然可以获得较为一致的性能表现。常见的例子包括case组和control组的年龄不匹配，选择的特征可能捕获的是年龄效应，而非目标表型的效应。
因此，独立的测试集是必要的。一个良好的独立测试集往往由独立实验室使用相同或等价的技术在等价的临床队列中产生。

参考文献

Avoiding common pitfalls in machine learning omic data science

子诚之 CSDN认证博客专家 CSDN认证企业博客

码龄7年

62: 原创

41万+: 周排名

18万+: 总排名

6万+: 访问

: 等级

801: 积分

119: 粉丝

165: 获赞

7: 评论

266: 收藏

私信

关注

热门文章

分类专栏

组学数据分析 5篇
机器学习 2篇
生物信息 9篇
web 3篇
环境&软件 4篇
深度学习 1篇
devops 1篇
编程 6篇
容器 5篇
流程开发 1篇
CS 4篇
C语言 1篇
数学模型 4篇

最新评论

[更新中] NGS常见软件和数据库（肿瘤/遗传病）
ANXIN520YANWU: 请问 hapmap_3.3.hg38.vcf.gz/ 1000G_omni2.5.hg38.vcf.gz等数据在哪下载
JavaScript_02_notes
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
notes_NLP
简单简单小白: 《notes_NLP》大佬讲述的很清楚，总结的也很详细，让我通俗易懂，又以实例证明技术点的实用性及可操作性，让我受益良多，感谢博主的分享
notes_质谱&蛋白组学数据分析基础知识
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。
注释 bed 文件中 feature 的基因名
Flynn1392: 人类基因组的注释文件推荐到GENCOE下载

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。