数据增量更新定义_论文学习：在线更新估计量的加权和方法

最新推荐文章于 2024-07-06 02:23:39 发布

weixin_39588206

最新推荐文章于 2024-07-06 02:23:39 发布

阅读量699

点赞数

文章标签：数据增量更新定义

本文为论文学习时所作的笔记整理，希望大家可以及时指出知识上的理解偏差或写作中引用不当等错误，以便及时修改，希望我们可以共同进步，fighting~

Cover Image by Dave Hoefler on Unsplash

title：Unified Rules of Renewable Weighted Sums for Various Online Updating Estimations

author：Lu Lin , Weiyu Li and Jun Lu

背景介绍

何为大数据？

大数据或海量数据，不仅指数据规模较大，还意味着数据类型复杂，即包含各种来源的大量非结构化或结构化数据^[1]。这为数据存储、大规模运算都带来了较大困难。现在，对于大数据的分析集中在以下两个方面：模型建立与模型检测。

大数据建模现在主要有三个研究方向：

DC方法，分而治之后再整合。（Divide and Conquer）
抽样方法。（Sub-sample）
在线估计方法。（On-line）

Main Idea

本文学习的这篇论文讨论的就是第三种方法——在线更新的方法。文献中建立了针对流数据集模型的在线更新估计的可再生加权和的统一框架。这种新定义的在线更新估计量建立在在线更新似然函数、在线更新损失函数、在线更新估计方程的基础上。在文献中选择非参数模型作为示例，但是这种方法同样可以应用于参数与非参数模型。在线更新估计量具有估计的相合性与渐进正态性，具有Oracle性质。同时这种方法不受数据量的限制，这意味着新方法适用于流数据集连续不断到达的这种情形。

数据流：按照时间顺序一块一块收集观测到的数据。 在线更新：在线更新方式为不储存原始的数据，使用前期数据的统计量和当期的数据进行更新。现有的方法有递归运算、随机梯度下降算法、在线二阶算法、在线贝叶斯推理等。但上述方法大多只适用于某些特殊的情形，并且为了保证统计一致性和Oracle性质需要对数据集进行较强的约束假设，文献希望建立一种统一的框架对流数据的在线更新估计量进行分析并减少对于数据集的约束假设（
）。

理论方法

首先，通过最小化在线更新估计损失函数来对参数进行估计，用

表示未知参数或者需要估计的非参数函数，

表示对

估计的第

步更新估计量。

度量了

和

之间的距离，可以选择欧式距离来进行度量。

和

分别为权重函数和损失函数。

为具有索引集的顺序数据集。最终得到在线更新估计的形式为：

式(1)可以作为在线更新估计量的形式是因为其只使用了现期的数据集和上一期的估计量和更早期数据估计量的加权累积数。

在线更新估计量

即可以表示为如下在线更新估计方程的解。

函数

满足

并且

是

的无偏估计函数，可以选择

。

Motivating examples

首先以非参数模型为例：

可获得的数据集序列记为

，且

是iid的，同时记

。

由非参数N-W估计量，可知

的估计为：

可以证明上述估计量满足下面方程：

这种想法可以追溯到Lin和Zhang的：

以上为文献中的在线更新估计的理论框架。

非参数模型中的在线更新估计

考虑真实的非参数函数

，其被定义为如下条件估计等式的解：

函数

包含了从似然，准似然和最小二乘等无偏估计函数这些特例，而函数

可能是非参数回归函数或者是回归模型中的方差函数。文献中以核估计方法为例，也可以拓展到样条估计和有限维估计之中。当数据是被连续且有顺序的观察到时，建议增量更新估计方程为：

其中，

是在第j步更新过程中获得窗宽为

下的核估计量。初始估计选择为

。

如果

是一个来自于似然函数的得分函数，那么式(9)将是一个在线更新得分函数。

特别是当

时，(9)式的解将有如下近似表达：

上式也可以被表达为

那么在线更新估计量就是一个N-W估计量，其窗宽取决于数据子集的大小。

对于更一般的例子，对于(9)式使用如下的增量迭代算法或许会更简单，

其中

，初始值选择

，并且

关于窗宽的选择我们可以选用经典的交叉验证的方式。

同样，我们使用增量更新最优的方法来构建线上更新估计量：

是给定的损失函数，

是已知的权重函数。对于权重函数一个有效的选择就是

的二阶导函数。

online updating likelihoods

假定

是负对数似然函数，并且k=2

^[2]，关键就是要解释为什么把第一部分最优化权重函数

和平方损失函数一起使用。

通常情况下，

是正态分布的，且渐进为零均值，方差与

成比例。所以有

的渐进分布导出的负对数似然函数为：

与加权平方损失函数相等。将这个似然函数的结果与原始的似然函数

相结合，我们可以得到在线更新似然函数为：

这就是(13)式的一个特例。

Remark 1:

如果

与

分别是似然函数与得分函数，(13)式中的RWS实际上是一个在线更新似然函数，(9)式中的RWS实际上是一个增量更新得分函数。那么实际上，上述工作是建立在似然函数和得分函数的基础上对流数据进行的分析，那么经典的理论性质就可以成功的实现。

拓展：

RWS是一个一致的框架，可以应用于很多不同种类的估计，不仅仅是非参数模型，在参数模型与半参数模型中也可以使用。这里举一个推导到半参数模型的实例。根据半参数的估计方法（Li and liang 2008）以及(9)式的策略，第k步的在线更新估计过程就是解如下两个等式。第一个是向量分参数估计方程：

对于

，

是一个二维无偏估计函数，

是

关于

的导数矩阵。通过上式获得了

关于的估计量，然后来解如下参数估计方程：

对于

，

是向量

的第二个元素，

是

对于

的导数。

理论性质

文献通过两个定理说明了提出的在线更新估计有以下性质：

The standard convergence rate and the optimal bandwidth. 在线更新估计具有标准的收敛速度，即在线更新估计量的收敛速度等于在全数据集上进行核估计的收敛速度，且对于k没有约束，k可以趋向于无穷。理论上最优的带宽应该要比使用每一次更新数据集得到的带宽小很多，因为每一次更新的数据集的规模要比全数据集小很多。除非流数据集的最终更新时间是确定的，否则不可能找到最优带宽，这在后面的数据模拟中也有讨论。
Efficiency, adaptability and the oracle property. 可以证明估计量是有效的，且适用于永久更新的流数据集有Oracle性质。

数值模拟

误差同方差

使用四个方法进行模拟：

全数据窗宽在线更新估计方法
。
在线更新窗宽的在线更新方法
。
全数据窗宽的N-W估计
。
一组N-W估计的简单平均
。

其中，最优窗宽

，全数据窗宽时就使用全部数据来进行交叉验证的方法选择

。对于在线更新窗宽，数据量为每一次更新得到的数据量，

使用第一次更新的数据交叉验证得到的最优窗宽来计算

。

总数据量不变，每一组的数据个数在变，k在变。

结果为，

的结果与

的结果完全一样，但是

结果稍差一些，但是仍然要比简单平均方法要好很多，说明在线更新估计方法是由于窗宽的原因无法达到最好的效果。

每一次的数据量不发生变化，但是总数据量n在发生变化。

同样，

的结果与

的结果完全一样，但是

结果稍差一些，但是仍然要比简单平均方法要好很多。

异方差，误差方差与X有关，不仅估计r(x)还要估计方差，估计一个二维的向量。对于回归方程的估计与前面相同。对于方差的估计，

的结果要比

结果稍差一些，因为要先估计回归方程再估计方差，结果就会差一些。

以上都是用最小二乘估计做的，若使用似然函数来做，在线更新估计和全数据最大似然估计，最终得到结论是几乎相同的。

最后文章分析了一个空气污染的实际例子。

存在的主要问题：

满足Oracle性质的最优窗宽选择是在事先预知数据终端的情形下得到的，如何在在线更新过程中找到合适的窗宽？
在（1）式中的损失函数可能没有一阶导数，相应的估计函数可能没有封闭的表达式。

下面是林路教授在狗熊会做的报告的链接~

山东大学林路教授：一种在线更新估计量的加权和方法appkfzfb4lz6715.h5.xiaoeknow.com

Lu, L., Li, W., & Lu, J. (2020). Unified rules of renewable weighted sums for various online updating estimations. Ithaca: Cornell University Library, arXiv.org. Retrieved from https://search.proquest.com/docview/2435940320?accountid=8554