SAS9.3/9.4统计分析安装使用教程自学资料完整模块最新SID 作者(李子健)
Sample一数据取样
当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关
的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。
通过数据取样,要把好数据的质量关。在任何时候都不要忽视数据的质量,,即使你是从一个数据仓库中进行数t解
取样, 也不要忘记检査其质量如何 。 因为通过数据挖掘是要探索企业运作的规律性的, 原始数据有误,
还谈什么从中探索规律性。若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导。若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性
。 再次提醒你在任何时候都不要忽视数据的质量, 慎之又慎!
从Ei大的企业数据母体中取出哪些数据作为样本数据呢?
这要依你所要达到的目标来区分采用不同的办法: 如果你是要进行过程的观察、 控制, 这时你可进行随机取样,
然后根t解样本数t料对企.、1“.或其中某个过程的状况作出估计 。 sAs 不仅支持这一取样过程, 面」i 可对所取出的
本f本数拥进行各种例行的检验 。
若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。你还应当从实验设计的要求来考察所取样数据的代表性
。 唯此, 才能通过此后的分析研究得出反映本质规律性的结果 。
利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。
ExpIor一数据特征探索、 分析和予处理
前面所叙述的数据取样, 多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的 。
当我们拿到了一个样本数据集后, 它是否达到我们原来设想的要求; 其中