数据增强——时间序列
基于变换的方法
WS(window slicing窗口切片)
对原始时间序列按一定长度切片,并在切片层次上进行训练及预测。
训练时,使用切片的小序列进行训练,切片的大小是一个参数。测试时,使用小序列进行测试,然后使用多数投票法确定最终的预测标签。
WW(window wraping窗口弯曲)
在原始时间序列上随机选择一定长度切片,然后对切片进行加速或减速(沿时间轴伸缩),最后使用WS以保证所有得到的时间序列都有相同的长度。
其他变换
并不是每一种方法都能有效的提高结果,有时候某些方法结合起来效果更好。
基于平均的方法
基于平均的方法对数据集中的全部或部分时间序列按多组不同的权重进行加权平均以合成新的时间序列数据。为了更好地维护时间序列的结构特征,该类方法采用在动态时间弯曲 (DTW) 距离度量下的加权平均以合成新的时间序列数据。
通常采用DTW重心平均 (DBA) 算法对上式进行优化求解,该方法基于期望最大化 (EM) 框架进行迭代优化。根据权重计算方式不同,基于平均的方法可以进一步细分为全平均 (AA) 法、平均选择 (AS) 法、距离平均选择 (ASD) 法等。
算法:
AA(全平均法)
采用随机采样的方法为数据集中的全部时间序列选择权重及初始平均向量
AS(平均选择法)
从数据集中随机选取一个时间序列作为初始平均向量并赋予α的权重,然后随机选取j个该时间序列的近邻分别赋予β的权重,最后为剩余的时间序列赋予(1-α-jβ)/(N-j-1)的权重
例如:
- 从训练集中随机选择一个初始时间序列开始,我们赋予它一个等于0.5的权重。这个随机选择的时间序列将作为DBA的初试化时间序列。
- 根据DTW距离找到和DBA初试化时间序列最近的5个时间序列。然后在这5个中随机选择两个,并将这两个的权重都设置为0.15。
- 为了使权重之和等于1,训练集中剩下的时间序列的权重和为1−0.15∗2−0.5=0.2,将剩下的时间序列平均分配这0.2的权重。
- 平均序列的生成使用加权的DBA算法。
ASD(距离平均选择法)
在AS的基础上,考虑初始选择的时间序列与其最近邻之间的距离来设置权重。离得近的权重大,离得远的权重相应小。