大数据时代，参数怎么降维？

最新推荐文章于 2024-05-07 13:50:43 发布

sd_equation

最新推荐文章于 2024-05-07 13:50:43 发布

阅读量2.3k

点赞数

文章标签：大数据数学建模统计学数学应用

本文链接：https://blog.csdn.net/sd_equation/article/details/62038264

版权

小编在《数学模型教你如何成为星际争霸高手·上篇》（传送门）[1]中提到过，参数估计（在数学上又称为反问题）往往比数学建模本身更为复杂。小编近日在研究阿尔兹海默症（Alzheimer's Disease，老年痴呆症的一种，已有上百年历史）的形成机制时对此深有体会。经多方总结，总算大体弄清楚了该病症的形成机理，得出如下图表[2]：

大家只需知道在这个复杂的网络中，每个小图都对应至少一个参数。看完后如果读者的表情是这样的：

小编表示理解，因为小编如果晚上睡不着，看看上面这个图表则倦意顿生！不一定非得“枕着你的名字才能入眠”，看着老年痴呆症的图表也可入眠。

其实以上图表已经经过了小编的高度简化，实际情景中还有许多未知或者有争议的致病机理尚待考证。所以用人名来命名一种疾病，实在是非常明智的，否则阿尔兹海默症应该译作——细胞质神经元纤维缠结-细胞外液β淀粉样蛋白老年斑致神经元萎缩疾病，以区别于其他老年痴呆症（帕金森综合症，ALS等）。每一种常见的疾病背后，都牵连着异常复杂的过程。

正好比当今中小学作业太多，需要减负；面对如此庞大（高维）的参数空间，自然也要想办法减少参数个数，这也是大数据时代普遍需要解决的问题。那么参数该如何降维呢？正所谓八仙过海各显神通，不同背景的科学家有不同的做法。

下图是参数估计问题的基本设定，

接下来的讨论都将基于这个设定。熟悉了以上设定，我们就可以出发了！

模型选择

数理统计学家对于模型参数的有关问题了如指掌，关于参数问题的方法和思想五花八门。例如在参数估计(Parameter Estimation)问题中，线性回归、非线性回归、极大似然估计是几种最常用的方法[3]。

不过在估计参数之前，首先要确定模型中到底需要多少参数。就像篮球比赛，参赛双方都有主力队员和替补队员，如果所有队员同时上场，势必造成场面混乱；如果双方只上一名队员，观赏性则远远不够。这就是模型选择(Model Selection)要解决的核心问题——到底派多少队员上场，才能既保证观赏性（模型的有效性），又不至于造成混乱（复杂性）呢？

模型参数，并非越多越好

在模型选择中，我们需要判断两种不同的参数选择方案和