相关性系数替代模型预测得分

最新推荐文章于 2024-02-26 20:16:58 发布

FarmerJohn

最新推荐文章于 2024-02-26 20:16:58 发布

阅读量1.9k

点赞数 1

分类专栏：生物信息学统计学文章标签：建模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fjsd155/article/details/102892815

版权

统计学同时被 2 个专栏收录

30 篇文章 72 订阅

订阅专栏

生物信息学

16 篇文章 53 订阅

订阅专栏

我们知道，构建模型后（得到权重参数），预测某个样本的得分（输出），只需要将该样本的按照模型的转化公式计算即可。但是，笔者最近看到两篇CNS的转录组学文献，采用了另一种构建样本得分的方法，使用相关性系数替代预测得分。

具体来讲，这些文献中，在求得模型的权重向量W后，对于样本X，其预测得分用 score=Cor(W,X) 替代。而常规做法中，预测得分采用的是 predict=W^TX 。上述score与predict之间是否总是一致，一致性是否健壮？

和蔡霸对此进行了探讨，得出的大致逻辑如下：当自变量分量之和一定时，权重大的分量取值大、权重小的分量取值小时，预测值就会更大。感觉这种替代也是合理的。这些论文中采用的是全转录组学数据（全基因signature，而不是关键子集），而转录组学目前定量主要采用TPM，基本满足“自变量分量之和一定”的前提。

这种替代是否健壮，需要一定的数学证明。

杜老哥对此提出用协方差解释，思路通了。

首先，协方差的公式有如下写法：

$Cov(W,X)=E[(W-E(W))(X-E(X))] =\frac{\sum _{i=1}^n(W_i-\bar{W})(X_i-\bar{X})}{n-1}$

Cov(W,X)=E[(W-E(W))(X-E(X))] =E(WX)-E(W)E(X)

其中： $E(WX)=\frac{\sum _{i=1}^nW_iX_i}{n-1}=\frac{W^TX}{n-1}$

且：E(W)与E(X)是恒定值（因为X各分量的总和是确定值）。令 e=E(W)E(X)

则： $Cov(W,X)=\frac{W^TX}{n-1}-e$

再根据相关系数与协方差的转换公式，可得： $Cor(W,X)=\frac{Cov(W,X)}{\sigma _W\sigma _X}=(\frac{W^TX}{n-1}-e)/(\sigma _W\sigma _X)$

由于 $\sigma _W$ 是确定的，若假定 $\sigma _X$ 也确定，则 Cor(W,X) 与 W^TX 有对应关系。

若有大佬对本话题感兴趣，欢迎对此进一步探讨。

原论文：

Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response 中的 T cell dysfunction score构建方法。

Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation 中的OCLR得分构建方法，其中mRNAsi构建采用的是相关性系数预测，mDNAsi采用的是常规的线性预测。

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

FarmerJohn 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。