1.挖掘数据流的基本相关概念
答:时间序列数据库由不同时间点重复测量的值或者事件的序列组成。序列数据库是由记录带有或不带有具体时间概念的有序元素或者事件的序列组成。数据流以不同更新速率连续地流进或者流出计算机系统,数据具有按时间顺序的、快速变化的、海量的、潜在无限的。针对数据流的挖掘以单遍扫描为主,因为多遍扫描的代价非诚高。
2.流数据处理方法的考虑
答:因为流数据的数据量非常大,所以非常精确的数据和结果对挖掘的成本要求太高,如非常模糊的数据结又不能起到应有的指导作用,所以折中考虑结果的精确性和成本,选择以大纲概要的方式来生成数据流挖掘的成果。随机抽样方法对数据流做无放回抽样,只处理样本数据即可。滑动窗口也是一种数据取样方法,只截取一定时间段的数据信息,只要时间段偏向于最近即可。直方图处理是一种数据规约的方法,简化大量的数据,以数据精度换取数据的处理速度。更进一步的多分辨率方法,更是对数据规约处理数据流的友好应用方式。大纲技术是处置准确性和存储之间进行权衡,从全局上进行维护,在内存限定的情况下维护一个从全数据流上生成的大纲。随机算法以随机抽样和更改的形式处理海量、高维数据流。
数据流挖掘的结果查询方式可以是一次性查询,也可以是连续查询,无论什么查询方式都要考虑数据流的特点,做出针对性的改变。
综合上述的论述,针对数据流的挖掘是如何利用有限的存储空间去抓取无限量数据中有用的信息。
3.时间序列处理方法的考虑
答:时间序列数据库由不同时间重复测量得到的值或事件的序列组成。一般来说,时间序列分析的目标有两个:时间序列建模和时间序列预测。趋势分析是刻画时间序列数据特征四个主要成分或趋势的组成:长期运动、周期运动、季节性运动、随机的运动。由于时间序列的数据在进行建模处理之后,可以生成一个随时间变化的模型,除了可以明显刻画出四个特征之外,还有子序列匹配或者全序列匹配的重要搜索。在做序列匹配的时候,应该要考虑放弃完全重现的的严苛条件,转而用在一定误差的情况下大部分信息是匹配的条件代替,里面既有数据采集的误差也有哲学思想上“世界上没有两个完全一模一样的树叶”的考量。实际操作中,误差条件的设定,如时间-事件曲线的平滑、数据规约、拟合等就是允许的,剩下的就是对这种条件下结果用事实数据进行检验。