这篇文章是听完北京大学讲席教授陈松蹊老师的“高分辨率经济统计学数据集与数值模型”讲座的后记。
一、原因 分析 统计
一个经济学统计项目的开端,或者说任何一个统计项目的开始,离不开下面三点。
- 原因
- 分析
- 统计
在开始统计项目之前, 列举引起问题的原因。
例如:关于大气污染,北方坊间有一种观点是,大量的植树造林和兴建风力发电机在一定程度上导致了北风的减弱,高浓度的气溶胶物质不易飘散,导致了污染的加剧。(风和降水的影响)
其次,从各种角度剖析原因。
例如:风对PM 2.5 的影响, 主要取决于风向和累积风速两大因素。风速直接决定了污染物的扩
散速度,风向则决定了污染物的传输方向。若风向改变,累积风速则重新从零累加。
最后,汇总数据进行统计,对问题与原因有无统计学意义上的相关联进行判断。
例如,使用散点图或回归分析来确定两个变量之间的关系,或使用方差分析或t检验来比较不同组之间的平均值是否存在显著差异。
在原因分析统计中,首先需要收集数据并进行分析。然后使用统计学方法来确定数据之间的关系,从而找出导致问题或变化的原因。原因分析统计的重点是识别变量之间的关系和影响因素。这种方法通常使用多元回归、主成分分析等技术来确定哪些因素对问题或变化产生最大的影响。
二、统计学与数字孪生相结合
模型+数据=数字孪生,数学模型+数据=统计。模型+数据+数学模型=?
统计学上数据同化是将不同来源、不同性质的观测数据与数值模型进行有效融合的过程,从而提高数值模型对真实世界的描述和预报精度的技术。数据同化技术可以在实时或后处理中应用于气象、海洋、地球物理等领域的预报和分析中,以提高数值模型的准确性和可靠性。通过数据同化,可以利用观测数据及其误差信息对数值模型进行校正,从而提高模型的预报能力。
在统计学中,时空分辨率也可以被解释为两个不同的概念。
时间分辨率指的是数据采集的时间间隔,例如每秒钟采集一次温度数据或者每年采集一次人口普查数据等。时间分辨率的高低直接决定了数据的时间粒度和观测频率,从而影响了数据分析的结果和应用效果。
空间分辨率则指的是数据在空间上的分布精度和分辨率。例如,人口普查数据的空间分辨率可能是城市居民点的地址,而卫星遥感数据的空间分辨率可能是一定面积内的地表覆盖类型或者土地利用类型等。空间分辨率的高低直接影响了数据的空间定位精度和信息提取效果。
时空分辨率在统计学中同样非常重要,因为它决定了我们能够获取的数据信息的精度和粒度。高时空分辨率的数据可以更准确地反映真实世界的变化和特征,也能提高数据分析和建模的准确性和可靠性。
Digital Deep Earth(数字孪生地球)是一个基于地球物理数据、遥感数据、地理信息系统(GIS)和其他数据源的数字化地球模型,旨在提供全球范围内的高分辨率、高精度的地球信息。数字深地球的建立需要多种数据源的集成和分析,包括卫星影像、激光雷达(LiDAR)数据、磁力计和重力计测量数据等。通过数字孪生地球,我们可以了解到地球表面的各种地貌、地质、生态和人类活动等信息,从而更好地理解地球上发生的各种现象和过程,包括自然灾害、气候变化、城市化进程、资源利用和环境保护等。
数字孪生地球技术的发展使得我们能够更加准确地理解地球表面的变化和特征,有助于促进地球科学的发展和应用。数字孪生地球已经被广泛应用于地质勘探、资源开发、城市规划、环境监测和灾害响应等领域,对于推动可持续发展和保护地球具有重要意义。
卡尔曼滤波(Kalman Filter)是一种用于从不完全或有噪声的数据中提取最优估计值的算法,Kalman Filter 的优势在于它能够通过动态地更新估计状态和状态不确定度,对有噪声和不完全的测量数据进行最优估计。Kalman Filter 的递归形式也使得它能够实时更新状态估计值,适用于实时数据处理。
Kalman Filter 在以下情况下更有优势:
带有噪声的测量数据:Kalman Filter 可以通过估计测量噪声的协方差矩阵,对含噪声的测量数据进行最优估计。
需要实时更新状态估计值:Kalman Filter 的递归形式可以实时更新状态估计值,适用于需要实时数据处理的场合。
多源数据融合:Kalman Filter 可以将多个源的数据进行融合,并通过不断更新状态估计值,提高估计精度。
系统动态模型已知:Kalman Filter 的核心是基于动态系统的状态方程和观测方程进行估计,因此在系统动态模型已知的情况下,可以更加精确地估计状态值。
总之,Kalman Filter 适用于需要对含噪声的测量数据进行最优估计,需要实时更新状态估计值,以及需要多源数据融合的情况。同时,在系统动态模型已知的情况下,Kalman Filter 可以提供更加精确的估计值。
Kalman Filter 的一些劣势:
对于非线性系统,需要使用扩展卡尔曼滤波(Extended Kalman Filter)或无迹卡尔曼滤波(Unscented Kalman Filter)等扩展卡尔曼滤波算法来处理。
对于复杂的系统动态模型和观测方程,需要精确地估计模型参数,否则可能会导致估计结果的不准确。
Kalman Filter 基于高斯分布,因此对于非高斯分布的情况,可能会出现误差增大的问题。
对于长时间的预测问题,由于 Kalman Filter 只考虑了过去的状态和观测数据,可能会出现累积误差导致预测结果不准确的问题。
总之,Kalman Filter 在应用过程中需要考虑到系统动态模型的精确性、观测噪声的影响以及预测时间的限制等问题,才能够获得更加准确的估计结果。同时,在处理非线性系统和非高斯分布问题时,需要考虑到使用扩展卡尔曼滤波或其他滤波算法的情况。
数学模型和数字模型
在数学模型上我们渴望获得更多的数据(更高维的数据)来进行模型的数据同化,现实世界的数字孪生能提供更高维的数据,更详尽的记录。例如:更多的模型引入,每个模型的细节参数,都能提高数据的空间分辨率,而数字模型为统计学模型带来了更为详尽的时间分辨率,回溯数字记录来把数字模型转化为当时的状态,可以以过去的视角复盘整个事件。
为数字孪生带来卡尔曼滤波算法
卡尔曼滤波算法适合于一个动态的,变化的,不断更新的系统,这和数字孪生的系统无疑是十分契合的,不但能根据现有的数据求解未来的世界,更有可能用现有的数据生成过去的数据,并不断重复这个过程,达到博古通今的可能。
欧洲气象中心(ECMWF)在很早就已经引入了卡尔曼滤波算法,他们的气象数据不但会记录现在的数据,预测未来的天气,更会通过算法生成过去所缺失的数据。
统计学孪生正在全球范围内推进
Digital Deep Earth 是一个全球性的统计学项目,受到中国在内的多个国家的重视,目标是形成高精度,数字化,数据回归性强的数字化地球模型,这就一定需要和数字孪生系统进行紧密结合。以满足城市未来的发展进行规划和决策的需求,同时,通过使用统计学方法对城市历史数据进行分析,可以更好地理解城市发展的趋势和规律,从而更加精确地进行规划和预测。
当然,数据的质量问题,数据的来源是否可靠,数据的正确性,也将是未来数据发展的关键问题。
举一个比较青涩的例子啊,机械硬盘都是有使用寿命的,相同批次的机械硬盘的使用寿命是差不多的,就意味着机房采购同一批次的硬盘的时候,会经常出现这一批次的硬盘同时损坏,这是无论raid几都救不回来的。
将机房管理接入数字孪生系统,系统统一记录每一块硬盘的使用时长,擦写数据量,采购厂商,采购批次的,采购时间。再通过数字孪生系统进行分析(接入大数据)管理。硬盘出现了大量的错误,或者是非正常离线,都应该被系统所记录,根据过去的数据进行自动分析(运行寿命分析,io操作分析,管理员临时下架分析)对同一批的硬盘进行告警处理,以便及时替换,降低数据风险。
对同型号(或者其他属性)的硬盘在某一温度(或其他属性)所允许的运行时间(或其他属性)进行汇总统计分析,在合适的时间对管理员进行不同程度上的告警标识(可以从低程度的数字孪生系统中设备的颜色变化,到紧急情况直接给管理员发送紧急邮件)