本文为论文学习时所作的笔记整理,希望大家可以及时指出知识上的理解偏差或写作中引用不当等错误,以便及时修改,希望我们可以共同进步,fighting~
Cover Image by Dave Hoefler on Unsplash
title:Unified Rules of Renewable Weighted Sums for Various Online Updating Estimations
author:Lu Lin , Weiyu Li and Jun Lu
背景介绍
何为大数据?
大数据或海量数据,不仅指数据规模较大,还意味着数据类型复杂,即包含各种来源的大量非结构化或结构化数据[1]。这为数据存储、大规模运算都带来了较大困难。现在,对于大数据的分析集中在以下两个方面:模型建立与模型检测。
大数据建模现在主要有三个研究方向:
- DC方法,分而治之后再整合。(Divide and Conquer)
- 抽样方法。(Sub-sample)
- 在线估计方法。(On-line)
Main Idea
本文学习的这篇论文讨论的就是第三种方法——在线更新的方法。文献中建立了针对流数据集模型的在线更新估计的可再生加权和的统一框架。这种新定义的在线更新估计量建立在在线更新似然函数、在线更新损失函数、在线更新估计方程的基础上。在文献中选择非参数模型作为示例,但是这种方法同样可以应用于参数与非参数模型。在线更新估计量具有估计的相合性与渐进正态性,具有Oracle性质。同时这种方法不受数据量的限制,这意味着新方法适用于流数据集连续不断到达的这种情形。
数据流:按照时间顺序一块一块收集观测到的数据。 在线更新:在线更新方式为不储存原始的数据,使用前期数据的统计量和当期的数据进行更 新。现有的方法有递归运算、随机梯度下降算法、在线二阶算法、在线贝叶斯推理等。但上述方法大多只适用于某些特殊的情形,并且为了保证统计一致性和Oracle性质需要对数据集进行较强的约束假设,文献希望建立一种统一的框架对流数据的在线更新估计量进行分析并减少对于数据集的约束假设()。
理论方法
首先,通过最小化在线更新估计损失函数来对参数进行估计,用
式(1)可以作为在线更新估计量的形式是因为其只使用了现期的数据集和上一期的估计量和更早期数据估计量的加权累积数。
在线更新估计量
函数
Motivating examples
首先以非参数模型为例:
可获得的数据集序列记为
由非参数N-W估计量,可知
可以证明上述估计量满足下面方程:
这种想法可以追溯到Lin和Zhang的:
以上为文献中的在线更新估计的理论框架。
非参数模型中的在线更新估计
考虑真实的非参数函数
函数
其中,
如果
特别是当
上式也可以被表达为
那么在线更新估计量就是一个N-W估计量,其窗宽取决于数据子集的大小。
对于更一般的例子,对于(9)式使用如下的增量迭代算法或许会更简单,
其中
关于窗宽的选择我们可以选用经典的交叉验证的方式。
同样,我们使用增量更新最优的方法来构建线上更新估计量:
online updating likelihoods
假定
通常情况下,
这就是(13)式的一个特例。
Remark 1:
如果
拓展:
RWS是一个一致的框架,可以应用于很多不同种类的估计,不仅仅是非参数模型,在参数模型与半参数模型中也可以使用。这里举一个推导到半参数模型的实例。根据半参数的估计方法(Li and liang 2008)以及(9)式的策略,第k步的在线更新估计过程就是解如下两个等式。第一个是向量分参数估计方程:
对于
对于
理论性质
文献通过两个定理说明了提出的在线更新估计有以下性质:
- The standard convergence rate and the optimal bandwidth. 在线更新估计具有标准的收敛速度,即在线更新估计量的收敛速度等于在全数据集上进行核估计的收敛速度,且对于k没有约束,k可以趋向于无穷。理论上最优的带宽应该要比使用每一次更新数据集得到的带宽小很多,因为每一次更新的数据集的规模要比全数据集小很多。除非流数据集的最终更新时间是确定的,否则不可能找到最优带宽,这在后面的数据模拟中也有讨论。
- Efficiency, adaptability and the oracle property. 可以证明估计量是有效的,且适用于永久更新的流数据集有Oracle性质。
数值模拟
误差同方差
使用四个方法进行模拟:
- 全数据窗宽在线更新估计方法
。
- 在线更新窗宽的在线更新方法
。
- 全数据窗宽的N-W估计
。
- 一组N-W估计的简单平均
。
其中,最优窗宽
总数据量不变,每一组的数据个数在变,k在变。
结果为,
每一次的数据量不发生变化,但是总数据量n在发生变化。
同样,
异方差,误差方差与X有关,不仅估计r(x)还要估计方差,估计一个二维的向量。对于回归方程的估计与前面相同。对于方差的估计,
以上都是用最小二乘估计做的,若使用似然函数来做,在线更新估计和全数据最大似然估计,最终得到结论是几乎相同的。
最后文章分析了一个空气污染的实际例子。
存在的主要问题:
- 满足Oracle性质的最优窗宽选择是在事先预知数据终端的情形下得到的,如何在在线更新过程中找到合适的窗宽?
- 在(1)式中的损失函数可能没有一阶导数,相应的估计函数可能没有封闭的表达式。
下面是林路教授在狗熊会做的报告的链接~
山东大学林路教授:一种在线更新估计量的加权和方法appkfzfb4lz6715.h5.xiaoeknow.com
Lu, L., Li, W., & Lu, J. (2020). Unified rules of renewable weighted sums for various online updating estimations. Ithaca: Cornell University Library, arXiv.org. Retrieved from https://search.proquest.com/docview/2435940320?accountid=8554
参考
- ^不同源的、异构类型数据
- ^更新至第二期