数据挖掘建模之评估数据

 

除非您要使用的数据符合特定的标准,否则数据挖掘将不会有什么成效。以下章节讲述了有关数据及其应用中值得您注意的一些问题。

数据是否可用?

这看起来好像是一个非常明显的问题,但值得注意的是:尽管数据可能可用,但其形式可能并不易于使用。可以从数据库(通过 ODBC)或文件导入数据。但是,数据可能在计算机上以某种其他形式保存,而无法直接访问。因此在使用之前,需要以某种合适的形式对其进行下载或转储。数据还可能散落于各种不同的数据库和源中,需要把它们放在一起。甚至这些数据可能不是在线的。如果数据只存在于纸面上,则首先需要进行数据录入,然后才能开始数据挖掘。

数据是否包含相关的属性?

数据挖掘的目的是为了确定相关属性,因此这看起来好像是一个奇怪的问题。但是,查看哪些数据可用并尝试确定可能相关但未记录的因素,这点非常有用。例如,尝试预测冰淇淋销售情况时,您可能有很多零售销路或销售历史的相关信息,但您可能没有关于天气和温度信息,而这些信息很可能十分重要。缺少属性不一定意味着数据挖掘无法产生有用的结果,但可能会限制所生成预测的准确性。

评估这种情况的一种快速方式是对数据执行全面的审核。开始审核之前,请将一个数据审核节点与数据源相连,并执行该节点以生成一个完整的报告。 请参阅 数据审核节点 以了解详细信息。

数据是否有噪声?

数据通常包含错误,也可能包含主观因素,因此可能存在偏差、臆断。这些现象统称为噪声。有时数据中的噪声是正常的。其中可能存在正常的潜在规则,但可能不涵盖 100% 的观测值。

通常情况下,数据中的噪声越多,越难获得准确结果。但 Clementine 的机器学习方法能够处理噪声数据,并且已经成功处理了包含将近 50% 噪声的数据集。

数据是否足够?

在数据挖掘中,数据集的大小并不一定非常重要。数据集的代表性,以及它对可能结果和变量组合的覆盖范围,这些要重要得多。

通常情况下,考虑的属性越多,需要提供代表性的涉及范围的记录越多。

如果数据具有代表性并且存在通用潜在规则,可能几千个(甚至几百个)记录的数据样本能够提供与一百万个记录同样好的结果 - 并且您获得结果的速度要快很多。

是否具有针对可用数据的专业知识?

在很多情况下,您都是针对自己的数据进行操作,因此对其内容和意义非常熟悉。但如果您要对组织中其他部门的数据进行操作,或对客户的数据进行操作,则拥有了解这些数据的专家会大有帮助。这些专家可以指导您确定相关的属性,帮助您解释数据挖掘的结果,并从信息的“黄沙”中淘出“真金”或通过数据集的异常值探得“珍宝”。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值