随机函数限制范围_函数型数据的进一步探索分析

最新推荐文章于 2023-11-09 18:14:00 发布

weixin_39898011

最新推荐文章于 2023-11-09 18:14:00 发布

阅读量355

点赞数

文章标签：随机函数限制范围

相较于函数型数据分析第一步中的基本概念，本章的讨论并没有多元统计分析中直接的标量对应。

导数（Derivatives）

纳入导数的信息是FDA的一个特色。按基函数

展开函数型数据得到

后，对

阶导函数的逼近可取为

这里预先假设了

和

的

光滑性，即

阶导数存在；Wiener过程连续但是不可导，B样条基函数的阶数即为可导次数。

例.[Matérn过程的B样条展开] 由Matérn协方差函数

可确定一大类平稳高斯过程

，适合

；其中

是方差参数，

是光滑参数，

是范围参数，

是第二类修正Bessel函数；此过程在均方意义下(从而以概率一成立)

次

可微。取

，则

考虑

，有

在[0,1]上取100个等距观测点的Matérn过程按10个B样条展开

Matérn过程的数值导数与B样条基函数展式的导数

惩罚平滑（Penalized Smoothing）

如果原始数据带有相当水平的噪声，那么基函数展式会随着基函数

增多而越发扭曲；这些扭曲反映的常常是不重要的特征。一个天真的想法是让基函数的个数

相对小，但是这会限制其线性组合的形状。

惩罚平滑能够避免此问题——可以选取基函数比观测点

还要多，采用

合适的评判依据来平滑曲线。

让我们首先聚焦于单个曲线，记观测数据为

。假设存在光滑曲线

，使得

是期望为零的随机误差。目标是消除随机误差项的贡献，逼近得到

其中基函数的个数

甚至可以超过观测次数。寻找系数

以最小化

带惩罚平方和(penalized sum of squares )

其中

是

平滑参数(smoothing parameter )，

是线性微分算子

调整

等同于在过拟合(overfitting)与过平滑(oversmoothing)之间权衡取舍，一个常用方法是

广义交叉验证(generalized cross-validation，简称 GCV)；它在计算上非常高效。

交叉验证(cross-validation )留下小样本，用大样本拟合模型，在留下的观测点上预测并记录误差；重复此过程直到所有数据点恰好被预测一次，最后计算误差的平方和。

GCV试图避免重复计算参数，因此运行十分快速。假设

的预测值可表示为

，其中

，则

GCV得分（希望取

使之尽可能

小）为

例.[带噪声的Matérn过程] 延续前例设定，取随机误差项

。

按50个B样条展开，对二阶导数加惩罚

除了二阶导数，处理周期性数据常用调和加速算子(harmonic acceleration operator)

设

，

，按

Fourier基展开

计算可得

振幅平方

前的系数

增长迅速，对于高频表现惩罚更强。

曲线对齐（Curve Alignment）

样本曲线的变化分为两种：其一是曲线之间的随机变化，称为振幅变化(amplitude variation)；其二是曲线相对于定义域的漂移，称为相位变化(phase variation)。这两种变化常常同时出现，例如溪流每年的水位。下面以著名的人类成长曲线为例，分离振幅变化和相位变化。

54个女孩在1-18岁的成长曲线（惩罚平滑后）

振幅变化体现在女孩个体的高矮不同，相位变化体现在成长关键点(如停止长高)的早晚不同。一般很难直接从成长曲线获取信息，考察其二阶导数对应的加速曲线更加有用；加速曲线的零点对应于成长的加快/减慢。

前述54个女孩的加速曲线，粗线表示均值

均值曲线的振幅变化相较而言更小，无法很好代表女孩个体的加速曲线；所以我们希望曲线能够对齐。如果对最快的青春期成长感兴趣，那么可以将加速曲线的最后一个零点作为界标，进行如下所述的界标配准(landmark registration)。

对每个曲线

手动选取界标

，构造

时间规整函数(time warping function )

来拉伸或压缩时间，使得

相同，如取为样本均值

。这些

应为递增的光滑函数，如果数据的时间轴都是

，那么不妨要求

；由此可确定唯一的二次函数。配准曲线定义为

，适合

。

如果要配准的曲线太多，那么确定界标位置可能比较麻烦；有时候可能没有选取界标的明确方法。一个更加自动的对齐方式是让配准曲线接近均值曲线，称作连续配准(continuous registration)——没有使用离散的界标，得到的连续配准曲线相比未配准前拥有更小的相位变化。

前述54个女孩的连续配准的加速曲线

将未配准曲线

的

总样本方差(total sample variance)

分解为振幅变化和相位变化引起的

和

，曲线配准大体上就是消除

中的

。在前述加速曲线中，有 MS.amp=5.917822, MS.pha=3.784422 和

。

weixin_39898011

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。