101算法构建风险模型

最新推荐文章于 2024-09-13 13:21:04 发布

bioInfo_seeker

最新推荐文章于 2024-09-13 13:21:04 发布

阅读量1.2k

点赞数 37

分类专栏：工具使用文章标签：算法机器学习人工智能数据挖掘深度学习云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bioinfo_seeker/article/details/137910038

版权

工具使用专栏收录该内容

7 篇文章 0 订阅

订阅专栏

101算法组合构建风险模型的方法，主要是来自于文章Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer.

豆芽菜推出的重现分析的过程，并为了更加方便的控制，我们将101种算法方法列出，用户可通过自己的需求和数据本身的情况进行筛选。

网站链接：101种算法组合构建预后模型

一、工具使用

其实只要准备四个文件，训练集有两个文件，验证集两个文件，分别是训练集和验证集的特征基因表达谱文件，训练集和验证集的生存数据文件

特征基因表达谱文件，其中行为基因，列为样本，训练集和验证集是一样的，记得第一列是行名，不能出现重复，如果重复了就要用去重工具去重（http://www.sxdyc.com/removeweight）。

第二个类型的文件为生存数据

训练集和验证集都是一样的，包含四列数据，第一列为样本名，第二列为数据队列，第三列为生存状态（必须是0和1），第四列为生存时间（时间可以是天/月/年）。

但是需要记得：

1、训练集和验证集的生存时间单位一定要一致！！！

2、数据队列名称，训练集和验证集不能出现重复，如训练集的队列名写TCGA，验证集就不能出现TCGA的名称，训练集只有一个数据集，验证集可以有多个数据集，这里的多个数据集就是通过第二列进行区分的

数据上传后，接下来就是选择参数进行分析

3、是否选择scale，如果需要按照单个数据做一个scale，就选择yes，那什么情况下选择yes，什么情况下选择no呢？按照小编的经验，主要还是看数据分布状态，如果数据分布都是比较均匀的，这时候可以选择做scale，也可以选择不做scale。那数据什么状态下就叫均匀呢？

从数据分布状态来说，就是数据最小值和最大值相差倍数不大，不如说第一个数据集，最值相差10倍，第二个数据集最值相差1000倍，这样的状态下最好选择做一下scale。

4、自主选择建模的方法

这里我们是将建模的方法释放出来，在之前的分析中，由于数据分布状态的问题，导致个别算法不能运行，内存直接爆掉，程序被迫中断，为此，我们在分析时不选择该算法组合即可。

二、101算法的应用场景及结果

1、为什么控制基因数量

101算法建模，对基因的筛选力度小，一般控制的基因数尽量不要超过30个以上，为什么这么设置呢？

比如说，建模后得到了50个基因，50个基因的模型效果很好，试想一下50个基因的模型意义在哪里呢？临床验证要求基因数量越少越好，最好的基因数量应该是控制在10个以内，实在不行，也不要超过15个。

这也是他应用的场景所决定的。所以在进行分析的过程中，不要使用太多的基因，不然筛选后，将没有什么意义和价值。

2、筛选特征基因后，计算的风险得分是否可以直接使用，为什么没有相应的系数

101算法组合默认是使用最后一个算法的predict预测出的风险得分，基本上都是没有系数。

有人会问，那为什么多因素cox分析会有系数！早期在多因素建模的过程中，也是没有系数的，后来为了将基因的风险系数进行量化，所以将多因素cox分析得到的coef作为系数，进行计算相关的风险得分。

而现在101算法，默认也是没有系数的，在得到特征基因后，选择用多因素cox/Logistic的得到系数，并重新计算风险得分，这也是目前很多文章中使用的方法。

关注

37
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。