为什么对疾病的预测准确率总是不高
这要从变量本身的性质来进行分析,为什么物理学上对很多的事情预测起来准确率能达到非常高的程度(例如预测卫星轨道),而对大部分疾病发生发展的预测很难达到90%?
被大量因素所影响的变量
牛顿第二定律(加速度定律)是F=ma,F是物体所受的合外力,m是物体质量,a是加速度,物体的加速度跟物体所受的合外力成正比,跟物体的质量成反比,加速度的方向跟合外力的方向相同。这里可以看到加速度只和两个因素相关,因此想要预测物体的加速度知道知道这两个因素就行。
但是,现实生活中绝大部分特征包括疾病的发生发展并不是由几个因素或者一个特定的公式就能预测出来的,影响这些特征的因素很多,并且不能确定有多少个,也不能确定这些因素具体是什么。我们非常希望能对未来有预测能力,特别是关于人体健康相关的事情。这个治疗方法能治愈多少病人、某类型的疾病的生存时间是多少、什么样的患者会有更高的复发率等等。
我们面对的大部分特征被大量因素所影响,把这些影响因素放在一张表中肯定是一个高纬度的矩阵,因此我把这种变量称为高维度变量。这个矩阵的特征之间不是互不相关的关系,而是互相联系、错综复杂的关系。我想探讨的是在这个剪不断、理还乱的特征世界里,应该如何去探索规律、得到有预测价值的结论。
高维度变量的分析
因素繁多而杂乱的世界无法构建出简洁优美的公式,只能通过概率去理解。这就是为什么统计学常常是解决问题的方法。通过测定、收集、试验、分析等方法,得到正确的讯息,并把讯息从样本推广到总体。
在做统计学分析时,往往把样本当做总体的缩影来对待。虽然这是被默认的,但其中非常多的数据并不符合随机抽样的原则,事实上和总体的偏差是很大的。这样的样本即使能得到很有意义的结论也不能直接应用于总体。但如果有这样的发现,总是给人希望的,毕竟总体有一定的概率也存在同样的情况。有很多样本数据只包含了几个或者十几个特征,很多重要特征都没能收集到。这样的数据是否是有价值的呢?首先,想构建好的预测模型是不太可能的,毕竟重要的信息都没能纳入模型,另外,收集到的特征和因变量之间的关系也是不好定义的,如果收集到的特征和因变量间有相关性,可能有混杂因素的存在导致这种相关性,两者并没有所谓的因果关系。而且由于很多特征没有收集到,也无法识别混杂因素,最终收集到的特征和因变量之间的关系就无法明确定义了。
可以说,大部分的统计分析一开始时都无法得到一个明确的结论,只能得到一种可能性,例如某因素可能是某疾病的致病因素等。当证据越来越多的指向同一结论,就认为这种预测关系为真实的可能行越大。因此最终统计分析也能得到很多比较可信的结论了。
研究这种高维度变量是非常复杂的事情,目前已经建立起一些研究体系进行简单的特征探索、模型构建等进行分析,但是什么样的结论有什么样的可信度还是没有很规范的。根据“奥卡姆剃刀”原则,我们应该把复杂问题简单化。我们应该想办法建立一套体系能直接判断某些特征是否对预测因变量有价值。