随机函数 限制范围_函数型数据的进一步探索分析

8347f9ee27d061fe99704cb1ecd40cac.png

相较于函数型数据分析第一步中的基本概念,本章的讨论并没有多元统计分析中直接的标量对应。

导数(Derivatives)

纳入导数的信息是FDA的一个特色。按基函数

展开函数型数据得到
后,对
阶导函数的逼近可取为

这里预先假设了

光滑性,即
阶导数存在;Wiener过程连续但是不可导,B样条基函数的阶数即为可导次数。

例.[Matérn过程的B样条展开] 由Matérn协方差函数

可确定一大类平稳高斯过程

,适合
;其中
是方差参数,
是光滑参数,
是范围参数,
是第二类修正Bessel函数;此过程在均方意义下(从而以概率一成立)
可微。取
,则

考虑

,有

cd5823e4378e7c042a83ecd90cc0415b.png
在[0,1]上取100个等距观测点的Matérn过程按10个B样条展开

95a4aeda6e581a50736eae2753601acb.png
Matérn过程的数值导数与B样条基函数展式的导数

惩罚平滑(Penalized Smoothing)

如果原始数据带有相当水平的噪声,那么基函数展式会随着基函数

增多而越发扭曲;这些扭曲反映的常常是不重要的特征。一个天真的想法是让基函数的个数
相对小,但是这会限制其线性组合的形状。
惩罚平滑能够避免此问题——可以选取基函数比观测点
还要多,采用
合适的评判依据来平滑曲线。

让我们首先聚焦于单个曲线,记观测数据为

。假设存在光滑曲线
,使得
是期望为零的随机误差。目标是消除随机误差项的贡献,逼近得到

其中基函数的个数

甚至可以超过观测次数。寻找系数
以最小化
带惩罚平方和(penalized sum of squares )

其中

平滑参数(smoothing parameter )
是线性微分算子

调整

等同于在过拟合(overfitting)与过平滑(oversmoothing)之间权衡取舍,一个常用方法是
广义交叉验证(generalized cross-validation,简称 GCV);它在计算上非常高效。
交叉验证(cross-validation )留下小样本,用大样本拟合模型,在留下的观测点上预测并记录误差;重复此过程直到所有数据点恰好被预测一次,最后计算误差的平方和。

GCV试图避免重复计算参数,因此运行十分快速。假设

的预测值可表示为
,其中
,则
GCV得分(希望取
使之尽可能
)为

例.[带噪声的Matérn过程] 延续前例设定,取随机误差项

33b84108ad33cbb900fac70b32bbd777.png

54e8e7b96a2c512f22bc59e4e979a8aa.png
按50个B样条展开,对二阶导数加惩罚

除了二阶导数,处理周期性数据常用调和加速算子(harmonic acceleration operator)

,按
Fourier基展开

计算可得

振幅平方

前的系数
增长迅速,对于高频表现惩罚更强。

曲线对齐(Curve Alignment)

样本曲线的变化分为两种:其一是曲线之间的随机变化,称为振幅变化(amplitude variation);其二是曲线相对于定义域的漂移,称为相位变化(phase variation)。这两种变化常常同时出现,例如溪流每年的水位。下面以著名的人类成长曲线为例,分离振幅变化和相位变化。

451f000409692d60c0e45cc8c8a3b3d5.png
54个女孩在1-18岁的成长曲线(惩罚平滑后)

振幅变化体现在女孩个体的高矮不同,相位变化体现在成长关键点(如停止长高)的早晚不同。一般很难直接从成长曲线获取信息,考察其二阶导数对应的加速曲线更加有用;加速曲线的零点对应于成长的加快/减慢。

0f60148c6c9dee4a33e62385f432527c.png
前述54个女孩的加速曲线,粗线表示均值

均值曲线的振幅变化相较而言更小,无法很好代表女孩个体的加速曲线;所以我们希望曲线能够对齐。如果对最快的青春期成长感兴趣,那么可以将加速曲线的最后一个零点作为界标,进行如下所述的界标配准(landmark registration)

对每个曲线

手动选取界标
,构造
时间规整函数(time warping function )
来拉伸或压缩时间,使得
相同,如取为样本均值
。这些
应为递增的光滑函数,如果数据的时间轴都是
,那么不妨要求
;由此可确定唯一的二次函数。配准曲线定义为
,适合

如果要配准的曲线太多,那么确定界标位置可能比较麻烦;有时候可能没有选取界标的明确方法。一个更加自动的对齐方式是让配准曲线接近均值曲线,称作连续配准(continuous registration)——没有使用离散的界标,得到的连续配准曲线相比未配准前拥有更小的相位变化。

9d1c5c53bdce22f1eb68b3c7205e60de.png
前述54个女孩的连续配准的加速曲线

将未配准曲线

总样本方差(total sample variance)

分解为振幅变化和相位变化引起的

,曲线配准大体上就是消除
中的
。在前述加速曲线中,有 MS.amp=5.917822, MS.pha=3.784422 和
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值