我们知道,构建模型后(得到权重参数),预测某个样本的得分(输出),只需要将该样本的按照模型的转化公式计算即可。但是,笔者最近看到两篇CNS的转录组学文献,采用了另一种构建样本得分的方法,使用相关性系数替代预测得分。
具体来讲,这些文献中,在求得模型的权重向量W后,对于样本X,其预测得分用 替代。而常规做法中,预测得分采用的是 。上述score与predict之间是否总是一致,一致性是否健壮?
和蔡霸对此进行了探讨,得出的大致逻辑如下:当自变量分量之和一定时,权重大的分量取值大、权重小的分量取值小时,预测值就会更大。感觉这种替代也是合理的。这些论文中采用的是全转录组学数据(全基因signature,而不是关键子集),而转录组学目前定量主要采用TPM,基本满足“自变量分量之和一定”的前提。
这种替代是否健壮,需要一定的数学证明。
杜老哥对此提出用协方差解释,思路通了。
首先,协方差的公式有如下写法:
其中:
且:E(W)与E(X)是恒定值(因为X各分量的总和是确定值)。令
则:
再根据相关系数与协方差的转换公式,可得:
由于 是确定的,若假定 也确定,则 与 有对应关系。
若有大佬对本话题感兴趣,欢迎对此进一步探讨。
原论文:
Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response 中的 T cell dysfunction score构建方法。
Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation 中的OCLR得分构建方法,其中mRNAsi构建采用的是相关性系数预测,mDNAsi采用的是常规的线性预测。