高纬度变量

文章讨论了高维度变量的特点,指出在物理学中预测容易准确,而在复杂如疾病预测等领域则困难的原因。高维度变量受众多因素影响,彼此间关系错综复杂。统计学成为解决此类问题的方法,但面临样本偏差和数据不完整性的挑战。通过逐步积累证据,统计分析能得出较为可信的结论,但如何评估和建立预测模型的有效性仍然是一个复杂的问题。
摘要由CSDN通过智能技术生成

为什么对疾病的预测准确率总是不高

    这要从变量本身的性质来进行分析,为什么物理学上对很多的事情预测起来准确率能达到非常高的程度(例如预测卫星轨道),而对大部分疾病发生发展的预测很难达到90%?
Photo by Ben White

被大量因素所影响的变量

    牛顿第二定律(加速度定律)是F=ma,F是物体所受的合外力,m是物体质量,a是加速度,物体的加速度跟物体所受的合外力成正比,跟物体的质量成反比,加速度的方向跟合外力的方向相同。这里可以看到加速度只和两个因素相关,因此想要预测物体的加速度知道知道这两个因素就行。

    但是,现实生活中绝大部分特征包括疾病的发生发展并不是由几个因素或者一个特定的公式就能预测出来的,影响这些特征的因素很多,并且不能确定有多少个,也不能确定这些因素具体是什么。我们非常希望能对未来有预测能力,特别是关于人体健康相关的事情。这个治疗方法能治愈多少病人、某类型的疾病的生存时间是多少、什么样的患者会有更高的复发率等等。

    我们面对的大部分特征被大量因素所影响,把这些影响因素放在一张表中肯定是一个高纬度的矩阵,因此我把这种变量称为高维度变量。这个矩阵的特征之间不是互不相关的关系,而是互相联系、错综复杂的关系。我想探讨的是在这个剪不断、理还乱的特征世界里,应该如何去探索规律、得到有预测价值的结论。

高维度变量的分析

    因素繁多而杂乱的世界无法构建出简洁优美的公式,只能通过概率去理解。这就是为什么统计学常常是解决问题的方法。通过测定、收集、试验、分析等方法,得到正确的讯息,并把讯息从样本推广到总体。

    在做统计学分析时,往往把样本当做总体的缩影来对待。虽然这是被默认的,但其中非常多的数据并不符合随机抽样的原则,事实上和总体的偏差是很大的。这样的样本即使能得到很有意义的结论也不能直接应用于总体。但如果有这样的发现,总是给人希望的,毕竟总体有一定的概率也存在同样的情况。有很多样本数据只包含了几个或者十几个特征,很多重要特征都没能收集到。这样的数据是否是有价值的呢?首先,想构建好的预测模型是不太可能的,毕竟重要的信息都没能纳入模型,另外,收集到的特征和因变量之间的关系也是不好定义的,如果收集到的特征和因变量间有相关性,可能有混杂因素的存在导致这种相关性,两者并没有所谓的因果关系。而且由于很多特征没有收集到,也无法识别混杂因素,最终收集到的特征和因变量之间的关系就无法明确定义了。

    可以说,大部分的统计分析一开始时都无法得到一个明确的结论,只能得到一种可能性,例如某因素可能是某疾病的致病因素等。当证据越来越多的指向同一结论,就认为这种预测关系为真实的可能行越大。因此最终统计分析也能得到很多比较可信的结论了。

    研究这种高维度变量是非常复杂的事情,目前已经建立起一些研究体系进行简单的特征探索、模型构建等进行分析,但是什么样的结论有什么样的可信度还是没有很规范的。根据“奥卡姆剃刀”原则,我们应该把复杂问题简单化。我们应该想办法建立一套体系能直接判断某些特征是否对预测因变量有价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值