相较于函数型数据分析第一步中的基本概念,本章的讨论并没有多元统计分析中直接的标量对应。
导数(Derivatives)
纳入导数的信息是FDA的一个特色。按基函数
这里预先假设了
例.[Matérn过程的B样条展开] 由Matérn协方差函数
可确定一大类平稳高斯过程
考虑
惩罚平滑(Penalized Smoothing)
如果原始数据带有相当水平的噪声,那么基函数展式会随着基函数
让我们首先聚焦于单个曲线,记观测数据为
其中基函数的个数
其中
调整
交叉验证(cross-validation )留下小样本,用大样本拟合模型,在留下的观测点上预测并记录误差;重复此过程直到所有数据点恰好被预测一次,最后计算误差的平方和。
GCV试图避免重复计算参数,因此运行十分快速。假设
例.[带噪声的Matérn过程] 延续前例设定,取随机误差项
除了二阶导数,处理周期性数据常用调和加速算子(harmonic acceleration operator)
设
计算可得
振幅平方
曲线对齐(Curve Alignment)
样本曲线的变化分为两种:其一是曲线之间的随机变化,称为振幅变化(amplitude variation);其二是曲线相对于定义域的漂移,称为相位变化(phase variation)。这两种变化常常同时出现,例如溪流每年的水位。下面以著名的人类成长曲线为例,分离振幅变化和相位变化。
振幅变化体现在女孩个体的高矮不同,相位变化体现在成长关键点(如停止长高)的早晚不同。一般很难直接从成长曲线获取信息,考察其二阶导数对应的加速曲线更加有用;加速曲线的零点对应于成长的加快/减慢。
均值曲线的振幅变化相较而言更小,无法很好代表女孩个体的加速曲线;所以我们希望曲线能够对齐。如果对最快的青春期成长感兴趣,那么可以将加速曲线的最后一个零点作为界标,进行如下所述的界标配准(landmark registration)。
对每个曲线
如果要配准的曲线太多,那么确定界标位置可能比较麻烦;有时候可能没有选取界标的明确方法。一个更加自动的对齐方式是让配准曲线接近均值曲线,称作连续配准(continuous registration)——没有使用离散的界标,得到的连续配准曲线相比未配准前拥有更小的相位变化。
将未配准曲线
分解为振幅变化和相位变化引起的