公众号:快乐数模
小红书:学数模使我快乐
数据挖掘是指从大量数据中提取或挖掘知识。换句话说,数据挖掘是发现大量复杂数据,以发现有用模式的科学、艺术和技术。理论家和实践者不断寻求改进的技术,使该过程更高效、更具成本效益和更准确。 本篇讨论序列数据及其含义,包含时间序列、符号序列、生物序列。后续会精细介绍各种数据的处理方式。
一、序列数据定义
- 时间序列数据(与时间相关的数据)
- 符号数据(符号组成的数据)
- 生物数据(与 DNA 和蛋白质相关的数据)
二、时间序列数据
在这种序列中,数据是按常规级别记录的数字数据类型。它们是由股票市场分析、医学观察等经济过程生成的。如今,这些时间序列用于分段数据近似,以便进行进一步分析。在这个时间序列数据中,我们可以找到与搜索查询相匹配的子序列。
- 时间序列预测 :预测是一种基于过去和现在的数据进行预测以了解未来会发生什么的方法。趋势分析是一种预测时间序列的方法。它是一种在时间序列中生成历史模式的函数,用于短期和长期预测。我们可以在时间序列中获得各种模式,如周期性运动、趋势运动、季节性运动,因为它们与时间或季节有关。ARIMA、SARIMA、长记忆时间序列建模是此类分析的一些常用方法。
三、符号数据
符号数据是指用符号或标志来表示的数据,通常是非数字化的数据形式。这些符号可以是文字、图形、图表、地图,甚至音乐符号等。这种有序元素或事件集合,可以有或没有具体的时间概念来记录。一些符号序列,如客户购物序列、网络点击流,就是符号数据的例子。序列模式挖掘主要用于符号序列。
基于约束的模式匹配是与用户定义数据交互的最佳方式之一。Apriori 是一种用于此类分析的算法。下面是一个象征性日期的示例,其中我们看到客户 c1 和 c2 在不同的时间间隔购买产品。
四、生物学数据
由 DNA 和蛋白质序列组成。它们很长而且很复杂,且有一些隐藏的含义。这些类型的数据用于核苷酸或氨基酸的序列。这些分析用于比对、索引、分析生物序列,在生物信息学和现代生物学中起着至关重要的作用。替代树用于查找氨基酸的概率和交叉点的概率。BLAST-Basic 局部比对搜索工具是生物序列最有效的工具。