数数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。本文精选几篇关于数据发掘论文范文供大家学习一下。
数据挖掘论文一:
《数据挖掘中的属性选择偏差抑制算法研究》
摘要:决策树算法广泛应用于数据挖掘领域之中.属性选择是决策树方法挖掘效率的关键,但ID3方法和C4.5方法在选择属性时,都会产生一定程度的选择偏差.据此,该文对信息增益模型进行了改进,将多次对数运算的信息熵求取过程简化为多值求和,从而规避了属性选择出现偏差的可能性,也加快了决策树构建的执行速度.依托学生情况数据展开的实验研究表明,与经典的ID3方法相比,该文方法构建的决策树更加简洁.同时,随着数据样本数量的增大,该文方法的执行时间大为降低.
关键词:数据挖掘;决策树;属性选择;偏差抑制
信息化技术的飞速发展,使得人们获得信息的渠道日益丰富,来自生产生活各个领域的数据信息让人们应接不暇.对海量的数据信息进行整理,并从中寻找到对自己有价值的信息至关重要,这就推动了数据发掘技术的不断进步[1].近年来,数据挖掘技术形成了重要的分支:基于决策树的挖掘方法、基于贝叶斯分类的挖掘方法、基于遗传算法的挖掘方法、基于神经网络的挖掘方法[2-4].
在这几大类方法中,基于决策树的挖掘方法应用最为广泛,这是因为决策树方法具有抑制噪声的能力,执行速度快,并且适合于各种规模的数据集合[5].决策树算法根据不同的属性对数据对象进行分类或测试,其中ID3型决策树算法是比较有代表性的挖掘算法之一[6].ID3型决策树采用了一种分治策略,依托信息熵理论并通过迭代分类器实现数据自动分类[7].
郭亦东等[8]在口令分析中使用了数据挖掘技术,并构建了一种基于剪枝决策树的挖掘方法,此方法中设计了节点代价的目标函数,并详细地设计了节点扩展、剪枝规则,从而进一步提升了ID3型决策树挖掘方法的效率.Kumar等[9]采取二分挖掘策略代替传统的线性挖掘策略,并对决策判断的局部阈值进行了分级改进,从而大大提高了决策树的构建效率.Ramos等[10]将模糊决策理论引入