论文泛读 - Stream Data Mining: A Survey(数据流挖掘)
作者:Neha Gupta , Indrjeet Rajput
数据流是一个大规模,连续和快速的数据元素序列。挖掘数据流给数据挖掘社区带来了新的问题,就是关于如何挖掘速度快到你只能看到一眼的连续高速数据项。由于这个原因,传统的数据挖掘方法被具有一些特殊特征的系统所取代,如连续到达多重,快速,时变,可能无法预测和无限制。分析数据流有助于科学应用,商业和天文等应用。在本文中,我们将介绍数据流日益增长的领域。我们介绍了分析数据流所需的理论基础。我们讨论用于挖掘数据流的各种技术。本文的重点是研究挖掘数据流所涉及的问题。最后,建议我们结束对该地区未来的大开放问题和一些有希望的研究方向的简要讨论。
作者:Neha Gupta , Indrjeet Rajput
数据流是一个大规模,连续和快速的数据元素序列。挖掘数据流给数据挖掘社区带来了新的问题,就是关于如何挖掘速度快到你只能看到一眼的连续高速数据项。由于这个原因,传统的数据挖掘方法被具有一些特殊特征的系统所取代,如连续到达多重,快速,时变,可能无法预测和无限制。分析数据流有助于科学应用,商业和天文等应用。在本文中,我们将介绍数据流日益增长的领域。我们介绍了分析数据流所需的理论基础。我们讨论用于挖掘数据流的各种技术。本文的重点是研究挖掘数据流所涉及的问题。最后,建议我们结束对该地区未来的大开放问题和一些有希望的研究方向的简要讨论。
数据挖掘被认为是在数据下发现有用模式的过程,也会使用机器学习算法。已经有一些技术使用计算机程序从数据中自动提取表示模式的模型,然后检查这些模型。传统的数据挖掘技术不能应用于数据流。由于大多数传统的数据挖掘需要多次扫描的数据来提取信息,对于流数据来说这是不现实的。信息系统已经变得更加复杂,即使处理的数据量增加了,并且也是动态的,因为共同的更新。数据流信息具有以下特征: