文章目录
写在前面:《水文》;2009年;
作者:李薇、孙洪林
1 摘要
- 水文时间序列相似性查询,可以用于雨洪过程预测、环境演变分析、水文过程规律分析等方面。
- 最为直接的应用是,回答防汛指挥中经常问到的:“当前水文过程相当于历史上哪一时期的同类过程”
- 引入数据仓库和数据挖掘挖掘理论与技术。
2 引言
3 问题描述
传统的时间序列相似性搜索研究,主要强调精确匹配,但是在数据挖掘应用中,由于数据量巨大,一般采用基于近似匹配的“近似搜索”。
水文时间序列相似性挖掘的关键工作有:
-
子序列的划分。 在国家水文数据库中,洪水工程已经按照产汇流理论进行了划分,形成了各类要素的摘录表。
但是,在日值类过程中,则需要按拟解决的问题类型进行划分,需要使得划分规则既符合水文理论,又适合计算机处理。 -
序列特征提取。一般是对序列进行变换,例如傅里叶变换、小波变换或者分段平均等方法映射到特征空间。
-
相似性度量的确定。对于水文过程而言,不同的水文要素过程有不同的特征。因此要根据水文过程的特点,确定与之相适应的相似性度量。
4 理论方法
水文时间序列的相似性查询,所需处理的数据对象以水文数据为基础,其过程主要可以分为两个主要的阶段:查询准备阶段和相似性查询阶段。
-
查询准备阶段。 包括数据预处理与时间序列的特征提取。
① 在任何一种数据挖掘任务中,数据预处理都是必不可少的关键工作之一,该模型中数据预处理涉及数据集成、数据净化、数据选择及序列规则化变换等;
② 时间序列的模式表示是时间序列数据挖掘的先决条件,是水文时间序列相似性挖掘的关键问题之一,其效果直接影响数据挖掘的结果。 -
相似性查询阶段。 主要是用户提交查询请求,系统在模式表示的基础上根据相似性度量方式进行模式匹配,并将结果可视化展示给用户。
模式匹配(相似性度量)+ 时间序列的模式表示 并称为时间序列相似性查询的两大基石。
5 基于特征点的分段线性表示
-
时间序列模式表示方法:
本文使用的是:基于特征点的分段线性表示,作为时间序列的模式表示方法。(PLR) -
对于具有明显的周期性和短期模式波动频繁等特点的时间序列,能够有效地实现数据压缩,从而把握时间序列总体模式的变化特征。
-
分段举例如下图所示:
5.1 分段线性表示
5.2 特征点的定义
6 时间序列的相似性度量
-
时间序列的相似性度量定义要满足以下条件:
(1)相似性度量允许不精确匹配,支持时间序列的多种形变;
(2)相似性度量的计算必须高效;
(3)相似性度量应该支持快速索引;
(4)相似性度量可以应用于其他数据挖掘领域,如时间序列的聚类和分类、频繁模式的发现和异常发现等等; -
常见的相似性度量有:Minkowski距离、动态时间弯曲距离、最长公共子串等等。
6.1 动态模式匹配距离(DPM)
- DPM 距离不是基于点与点之间的匹配计算,而是通过模式来匹配的。
- 优点:模式的定义非常 灵活;模式的平均长度一般远大于1,实现了时间序列的降维(时间序列的模式数远小于时间序列的长度)
6.2 算法步骤
-
定义模式。从时间序列中抽取模式特征,将时间序列变换到特征空间,得到时间序列的模式表示。
对于分段线性表示来说,模式就是时间序列字段的插值线段,其特征可以是线段的长度、斜率等等; -
定义模式之间的距离,计算模式的匹配程度。模式的距离可以用欧式距离和DTW距离来定义。
-
在距离模式的基础上,定义动态模式匹配距离。
6.3 本文采用的模式距离
- 动态模式匹配距离能够支持时间序列的振幅平移和伸缩。
- 采用模式的动态匹配方法,因此能够支持时间序列的时间轴伸缩和弯曲。
- 动态模式匹配距离可以采用累积距离矩阵的方法计算。
7 实验分析
7.1 数据预处理
- 数据预处理包括数据抽取、转换、清理和加载。
- 数据预处理是数据挖掘工作的前提,充分的数据准备可以深入了解数据本身的特点。
- 数据预处理工作耗时长,通常占到整个数据挖掘任务工作量的70%~80% 。
7.2 模式表示
-
在数据预处理的基础上,首先采用基于特征点的线性分段方法,进行时间序列的模式表示,以达到数据压缩和过滤噪声的的目的。
-
然后使用动态模式匹配(DPM)距离,作为相似性度量方式,实现以下两个方面的相似性查询:
(1)匹配序列对查询:查找两测站,同一时期内具有相似 降雨量曲线的时间序列对;
(2)指定查询序列搜索:给定查询序列,在两测站雨量数据库中查找所有与之相似的序列。
7.3 步骤描述
-
首先,查找两测站,同一时期内具有相似降雨量曲线的时间序列对。
在水文现象中,降雨量对径流量的大小有着很重要的影响。而根据径流量的大小,水文年往往可以分为丰水年、平(常)水年和枯水年。因此,降雨量在一定程度上可以反映水文年的上述特性。
由于采用基于动态模式匹配(DPM)距离的k-中心点聚类算法对不同类型或形状的水文时间序列有较好的分辨效果。
鉴于此,我们采用基于动态模式匹配距离的k-中心点聚类算法来查找两测站点在同一年汛期内具有相似降雨量曲线的时间序列对。 -
其次,指定查询序列搜索,即给定查询序列Q,在两测站点的雨量数据库中查询所有与之相似的序列。
8 小结
水文尺度问题也与水文相似性问题密切相关,如果能查询出水文相似性,那么就可以通过这种相似性来处理水文尺度问题。
这对从理论上解决无实测水文资料情况下水文规律的探求问题具有深远的理论意义和重大的应用价值。