101算法构建风险模型

101算法组合构建风险模型的方法,主要是来自于文章Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer.

豆芽菜推出的重现分析的过程,并为了更加方便的控制,我们将101种算法方法列出,用户可通过自己的需求和数据本身的情况进行筛选。

网站链接:101种算法组合构建预后模型

图片

一、工具使用

其实只要准备四个文件,训练集有两个文件,验证集两个文件,分别是训练集和验证集的特征基因表达谱文件,训练集和验证集的生存数据文件

特征基因表达谱文件,其中行为基因,列为样本,训练集和验证集是一样的,记得第一列是行名,不能出现重复,如果重复了就要用去重工具去重(http://www.sxdyc.com/removeweight)。

图片

第二个类型的文件为生存数据

训练集和验证集都是一样的,包含四列数据,第一列为样本名,第二列为数据队列,第三列为生存状态(必须是0和1),第四列为生存时间(时间可以是天/月/年)。

但是需要记得:

1、训练集和验证集的生存时间单位一定要一致!!!

2、数据队列名称,训练集和验证集不能出现重复,如训练集的队列名写TCGA,验证集就不能出现TCGA的名称,训练集只有一个数据集,验证集可以有多个数据集,这里的多个数据集就是通过第二列进行区分的

图片

数据上传后,接下来就是选择参数进行分析

3、是否选择scale,如果需要按照单个数据做一个scale,就选择yes,那什么情况下选择yes,什么情况下选择no呢?按照小编的经验,主要还是看数据分布状态,如果数据分布都是比较均匀的,这时候可以选择做scale,也可以选择不做scale。那数据什么状态下就叫均匀呢?

从数据分布状态来说,就是数据最小值和最大值相差倍数不大,不如说第一个数据集,最值相差10倍,第二个数据集最值相差1000倍,这样的状态下最好选择做一下scale。

4、自主选择建模的方法

图片

这里我们是将建模的 方法释放出来,在之前的分析中,由于数据分布状态的问题,导致个别算法不能运行,内存直接爆掉,程序被迫中断,为此,我们在分析时不选择该算法组合即可。

二、101算法的应用场景及结果

1、为什么控制基因数量

101算法建模,对基因的筛选力度小,一般控制的基因数尽量不要超过30个以上,为什么这么设置呢?

比如说,建模后得到了50个基因,50个基因的模型效果很好,试想一下50个基因的模型意义在哪里呢?临床验证要求基因数量越少越好,最好的基因数量应该是控制在10个以内,实在不行,也不要超过15个。

这也是他应用的场景所决定的。所以在进行分析的过程中,不要使用太多的基因,不然筛选后,将没有什么意义和价值。

2、筛选特征基因后,计算的风险得分是否可以直接使用,为什么没有相应的系数

101算法组合默认是使用最后一个算法的predict预测出的风险得分,基本上都是没有系数。

有人会问,那为什么多因素cox分析会有系数!早期在多因素建模的过程中,也是没有系数的,后来为了将基因的风险系数进行量化,所以将多因素cox分析得到的coef作为系数,进行计算相关的风险得分。

而现在101算法,默认也是没有系数的,在得到特征基因后,选择用多因素cox/Logistic的得到系数,并重新计算风险得分,这也是目前很多文章中使用的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值