论文学习——水文时间序列相似性查询的分析与研究

写在前面:《水文》;2009年;
作者:李薇、孙洪林

1 摘要

  1. 水文时间序列相似性查询,可以用于雨洪过程预测、环境演变分析、水文过程规律分析等方面。
  2. 最为直接的应用是,回答防汛指挥中经常问到的:“当前水文过程相当于历史上哪一时期的同类过程”
  3. 引入数据仓库和数据挖掘挖掘理论与技术。

2 引言

在这里插入图片描述

3 问题描述

传统的时间序列相似性搜索研究,主要强调精确匹配,但是在数据挖掘应用中,由于数据量巨大,一般采用基于近似匹配的“近似搜索”。

水文时间序列相似性挖掘的关键工作有:

  1. 子序列的划分。 在国家水文数据库中,洪水工程已经按照产汇流理论进行了划分,形成了各类要素的摘录表。
    但是,在日值类过程中,则需要按拟解决的问题类型进行划分,需要使得划分规则既符合水文理论,又适合计算机处理

  2. 序列特征提取。一般是对序列进行变换,例如傅里叶变换、小波变换或者分段平均等方法映射到特征空间。

  3. 相似性度量的确定。对于水文过程而言,不同的水文要素过程有不同的特征。因此要根据水文过程的特点,确定与之相适应的相似性度量。

4 理论方法

水文时间序列的相似性查询,所需处理的数据对象以水文数据为基础,其过程主要可以分为两个主要的阶段:查询准备阶段相似性查询阶段

  1. 查询准备阶段。 包括数据预处理时间序列的特征提取
    ① 在任何一种数据挖掘任务中,数据预处理都是必不可少的关键工作之一,该模型中数据预处理涉及数据集成、数据净化、数据选择及序列规则化变换等;
    ② 时间序列的模式表示是时间序列数据挖掘的先决条件,是水文时间序列相似性挖掘的关键问题之一,其效果直接影响数据挖掘的结果。

  2. 相似性查询阶段。 主要是用户提交查询请求,系统在模式表示的基础上根据相似性度量方式进行模式匹配,并将结果可视化展示给用户。

模式匹配(相似性度量)+ 时间序列的模式表示 并称为时间序列相似性查询的两大基石。

5 基于特征点的分段线性表示

  • 时间序列模式表示方法:
    本文使用的是:基于特征点的分段线性表示,作为时间序列的模式表示方法。(PLR)

  • 对于具有明显的周期性和短期模式波动频繁等特点的时间序列,能够有效地实现数据压缩,从而把握时间序列总体模式的变化特征。

  • 分段举例如下图所示:
    在这里插入图片描述

5.1 分段线性表示

在这里插入图片描述

5.2 特征点的定义

在这里插入图片描述

6 时间序列的相似性度量

  • 时间序列的相似性度量定义要满足以下条件:
    (1)相似性度量允许不精确匹配,支持时间序列的多种形变;
    (2)相似性度量的计算必须高效;
    (3)相似性度量应该支持快速索引;
    (4)相似性度量可以应用于其他数据挖掘领域,如时间序列的聚类和分类、频繁模式的发现和异常发现等等;

  • 常见的相似性度量有:Minkowski距离、动态时间弯曲距离、最长公共子串等等。

6.1 动态模式匹配距离(DPM)

  1. DPM 距离不是基于点与点之间的匹配计算,而是通过模式来匹配的。
  2. 优点:模式的定义非常 灵活;模式的平均长度一般远大于1,实现了时间序列的降维(时间序列的模式数远小于时间序列的长度)

6.2 算法步骤

  1. 定义模式。从时间序列中抽取模式特征,将时间序列变换到特征空间,得到时间序列的模式表示。
    对于分段线性表示来说,模式就是时间序列字段的插值线段,其特征可以是线段的长度、斜率等等;

  2. 定义模式之间的距离,计算模式的匹配程度。模式的距离可以用欧式距离和DTW距离来定义。

  3. 在距离模式的基础上,定义动态模式匹配距离

6.3 本文采用的模式距离

在这里插入图片描述

  • 动态模式匹配距离能够支持时间序列的振幅平移和伸缩。
  • 采用模式的动态匹配方法,因此能够支持时间序列的时间轴伸缩和弯曲。
  • 动态模式匹配距离可以采用累积距离矩阵的方法计算

7 实验分析

7.1 数据预处理

  1. 数据预处理包括数据抽取、转换、清理和加载。
  2. 数据预处理是数据挖掘工作的前提,充分的数据准备可以深入了解数据本身的特点。
  3. 数据预处理工作耗时长,通常占到整个数据挖掘任务工作量的70%~80% 。

7.2 模式表示

  1. 在数据预处理的基础上,首先采用基于特征点的线性分段方法,进行时间序列的模式表示,以达到数据压缩过滤噪声的的目的。

  2. 然后使用动态模式匹配(DPM)距离,作为相似性度量方式,实现以下两个方面的相似性查询:
    (1)匹配序列对查询:查找两测站,同一时期内具有相似 降雨量曲线的时间序列对;
    (2)指定查询序列搜索:给定查询序列,在两测站雨量数据库中查找所有与之相似的序列。

7.3 步骤描述

  1. 首先,查找两测站,同一时期内具有相似降雨量曲线的时间序列对。
    在水文现象中,降雨量对径流量的大小有着很重要的影响。而根据径流量的大小,水文年往往可以分为丰水年、平(常)水年和枯水年。因此,降雨量在一定程度上可以反映水文年的上述特性。
    由于采用基于动态模式匹配(DPM)距离的k-中心点聚类算法对不同类型或形状的水文时间序列有较好的分辨效果。
    鉴于此,我们采用基于动态模式匹配距离的k-中心点聚类算法来查找两测站点在同一年汛期内具有相似降雨量曲线的时间序列对。

  2. 其次,指定查询序列搜索,即给定查询序列Q,在两测站点的雨量数据库中查询所有与之相似的序列。

8 小结

水文尺度问题也与水文相似性问题密切相关,如果能查询出水文相似性,那么就可以通过这种相似性来处理水文尺度问题。

这对从理论上解决无实测水文资料情况下水文规律的探求问题具有深远的理论意义和重大的应用价值。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
水文时间序列趋势与突变分析系统(HMDS2016)是一种用于分析水文时间序列趋势和检测突变的工具。该系统的设计目的是帮助水文工作者更好地了解和预测水文过程中的变化。 HMDS2016具有以下特点和功能。首先,它可用于分析长时间范围内的水文时间序列数据,可以处理不同时间尺度下的水文数据,包括日、月、年等。其次,该系统能够提供多种统计学方法和算法来分析水文数据的趋势和突变,包括线性回归、曲线拟合、季节性分析等。通过这些统计学方法,用户可以获得水文时间序列的变化趋势和周期性。此外,HMDS2016还提供了突变检测功能,可以自动检测水文时间序列中的突变点,并进一步分析突变的原因和影响。 除了数据分析功能,HMDS2016还具备数据可视化和报告生成的能力。用户可以通过系统中的图表和图像来直观地展示水文时间序列数据的趋势和突变情况。同时,该系统还能够生成专业化的报告,记录水文分析的结果和结论,方便用户进行进一步研究和决策。 总之,HMDS2016是一个功能强大的水文时间序列趋势与突变分析系统。它提供了多种方法和算法来分析水文数据的趋势和突变,支持多种时间尺度的数据处理和分析。此外,该系统还具备数据可视化和报告生成的能力,方便用户直观地展示和分享水文分析结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值