近期看了一些关于数据采样的资料,顺便研究了一下SAS EM模块Sampling节点,SAS EM里提供了随机采样,等距采样,分层采样以及聚类采样等集中采样方法,这里分别介绍一下[@more@]
在数据挖掘的数据分析阶段,数据量通常都很大,一般为几十万甚至上百万。通过数据分析,用户可以了解数据集的特征,变量特征,并对数据进行初步的处理,以便在建模阶段有导向的提取特征变量进行建模。但如果建模的数据量过大,一方面要对所有数据进行训练,时间上很难满足,另一方面,数据量过大,容易造成模型的过度拟合。因此在建模之前对数据进行采样在数据挖掘过程中是十分必要的。
常用的数据采样方法可以分成两类:
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/11748324/viewspace-982889/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/11748324/viewspace-982889/