数据挖掘之数据准备——原始数据的特性

最初为数据挖掘准备的所有原始数据集通常很大,它们中的许多都和人有关,且比较杂乱。


初始数据集应包含丢失值,失真,误记录和不正当样本等。要得到高质量的数据,必须在分析者看到它们之前,先整理和预处理数据,使其就像设计合理,准备充分的数据仓库中的数据一样。


杂乱数据的来源和含义。数据杂乱的原因如下:

    1、数据丢失的原因包括测量或者记录出错,有时候都无法获得数据值。在数据建模处理此问题时,必须能根据已有的数据甚至丢失的数据来建模。

    2、数据的误记录,这在大数据集中非常常见。我们必须有能发现这些“异常”值的机制,某些情况下,甚至要用这些机制消除“异常”值对最终结果的影响

    3、数据可能并不来自假定的样本母体。这里异常点就是典型的例子,分析人员要对它们进行仔细的分析,才能决定是将它们作为异常,从数据挖掘中剔除,还是将它们保留为所研究的样本母体的不寻常样本。


对于现代的大型数据集来说,必须依赖计算机程序来自动检查数据。


失真数据,方法上错误的步骤选择,滥用数据挖掘工具,模型过于理想化,未考虑数据中各种不确定性和模糊性的模型-所有这些都可能在数据挖掘过程中导致方向错误。因此,数据挖掘不只是简单地对已知问题应用一系列工具,而是一个批判性的鉴定,考查,检验和评估过程。数据在本质上应该是定义明确的,一致的和非易失性的。数据量要足够大,以支持数据分析,查询,汇报以及与长期历史数据进行比较。


数据挖掘过程中一个最关键的步骤是初始数据集的准备和转换。


原始数据并不总是能进行数据挖掘的最佳数据集,要对其进行许多转换,才能产生对所选的数据挖掘方法更有用的特征。


用不同的方式计算,采用不同的样本大小,选择重要的比率,针对时间相关数据改变数据窗口的大小,包活移动平均数的变化——所有这些都可能有助于获得更好的数据挖掘结果。



在数据挖掘应用的现实世界中,形势恰恰相反。数据准备比应用数据挖掘方法更加的耗时耗力。


数据准备阶段有两个中心任务:

 1、把数据组织成一种标准形式,以便于数据挖掘工具和其他基于计算机的工具处理

 2、准备数据集,使其能得到最佳的数据挖掘效果。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值