项目简介:数据挖掘(英文:Data mining),又称为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。在此过程中,由于源数据集过于庞大,计算所需的时间和空间成本很高,所以其中需要使用抽样技术。本项目致力于研究源数据集到目标数据集(代表性数据)的转化过程,主要研究分三个方面:
1) 对于大规模数据集的数据选择的研究与优化(双决策树)
2) 对于大规模数据集的数据预处理的研究
3) 具体试验与测试
研究主要目标在于从源数据集中得到标志性数据集,以此节约时间和空间成本。并且提高目标数据集的质量,从而得到更有效的结果。
研究目的
数据挖掘并不专用于某些特定领域,它需要使用各种技术寻找可能隐藏在数据中的知识。一般情况下,应用数据挖掘技术是为了实现以下三种目的:
1) 发现知识
2) 使数据可视化
3) 纠正数据
在数据挖掘的实际过程中,因为源数据集过于庞大,计算所需的时间和空间成本很高,所以其中需要使用抽样技术,提取出源数据集中具有代表性的数据,从而降低成本。项目的目的在于研究数据挖掘过程中的选择数据方式的优化和数据预处理方案,解决源数据过大导致的时间与空间成本高的问题。主要方案是提高从源数据到有效数据的转化率,从而得到更精确有效的结论。
此项目获国家级立项:http://pan.baidu.com/s/1eSopcA2