那么可以将问题分解为两点:
1.如何定量计算出自建点数据和国控点数据的差异值?
此论文通过时间对齐算法实现国控点数据和监测点数据的可比较性。说实话,这篇论文采用的时间对齐算法,我之前还真的没有接触过。百度搜索了一下这个算法,其实我个人觉得,这个名称是题目自己取的,只是为了让时间一一对应罢了。先补全对于时间缺失的数据,而后再设定一个区间,以这个区间对数据进行分段,然后取这个区间的平均值。最后再将处理过后的2数据与1数据进行差值处理就是差异值,画出图像。
漏洞:它的这篇论文还有一个问题没有说明白,就是那些他原本想要对齐而实际上缺失的数据,论文中并没有说明是如何进行处理的。
2.差异值的影响因素分析,包括因素的识别、因素间相互关系以及因素影响程度大小等问题。
基于关联度分析的差异值影响模型
关联度分析:关联度分析方法是根据因素之间发展态势的相似或相异程度来衡量因素间关联的程度,它解释了事物动态关联的特征与程度。它具备不过分要求样本量、不需要典型分布规律、计算量少、不会出现关联度量化结果与定性分析不一致等优点,因此得到了广泛使用。
该论文着重考察各因素对差异值的影响,分析之间的关系。
关联度分析,我好像还不知道怎么搞,明天好好看看操作。
基于多元线性回归的差异值影响模型
多元回归分析的基本步骤如下:(1)获取自变量与因变量的数据,作为样本数据;(2)根据自变量与因变量基本确定回归模型;(3)利用自变量与因变量的样本数据拟合出回归数学模型的系数;(4)通过模型的显著程度、拟合度等参数评价模型优劣。文中,多元线性回归模型的因变量仍为自建点与国控点在“两尘四气”浓度上的数据差异值。自变量分别为“两尘四气”浓度、风速、气压、降水量、温度以及湿度,共计11维。
零点漂移和量程漂移恰可视作方程的常数项发生了变化。
小结:该题从关联度分析和多元回归分析两个角度,分别考察了导致自建点数据和国控点数据产生差异的因素,分析内容详实,具体包括是哪些影响因素导致了差异值的产生、测算出差异值与影响因素的关联度排序、各影响因素对于差异值的显著程度、作用方向及影响程度。
针对基于分段线性插值方法对自建点数据进行校准,将自建点数据校准问题,转化为一个过已知有限个数据点(国控点监测数据)求近似函数的问题。
已知国控点的监测数据准确,但布控较少、发布时间滞后;自建点监测数据更新快,但误差较大。如何利用国控点数据对自建点数据进行校准这一问题,等同于求一个过已知有限个数据点(国控点监测数据)的近似函数,进而产生出与自建点监测数据同步更新的数据,并据此对自建点数据进行校准。校准方法的有效性需要进行客观、准确的评价,可考虑通过可视化方式、定量计算两种方式进行评价。
分段线性插值:是将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数。具体到每一个分段,指插值函数为一次多项式的插值方式,即线性插值(在插值节点上的插值误差为零)。
由图可知,国控点和自建点数据存在明显的不一致现象,但校准后的自建点数据与国控点数据吻合度较好。