1 数据挖掘的发展趋势和研究前沿
1.1 挖掘复杂的数据类型
1.1.1 挖掘序列数据:时间序列、符号序列和生物学序列
序列是事件的有序列表。
在时间序列数据(time-seriesdata)中,序列数据由相等时间间隔记录的的数值数据的长序列组成。
符号序列数据(symbolic sequence data)由事件或标称数据的长序列组成,通常不是相等的时间间隔观测。
生物学序列(biological)包括DNA序列和蛋白质序列。
1. 时间序列数据的相似性搜索
时间序列数据集包含不同时间点重复测量得到的数值序列。
相似性搜索找出稍微不同于给定查询序列的数据序列。
子序列匹配
2. 时间序列数据的回归和趋势分析
趋势分析也可以用于时间序列预测,即找出一个数学函数,它近似地产生时间序列的历史模式,并使用它对未来的数据进行长期或短期预测。
3. 符号序列中的序列模式挖掘
符号序列由元素或事件的有序集组成,记录或未记录具体时间。
序列模式挖掘广泛地关注挖掘符号序列模式。序列模式是一个存在于单个序列或一个序列集中的频繁子序列。
4. 序列分类
序列分类方法