数据挖掘之数据准备——原始数据的特性

最新推荐文章于 2024-04-25 15:22:29 发布

weixin_33851177

最新推荐文章于 2024-04-25 15:22:29 发布

阅读量1.6k

点赞数

文章标签：数据库大数据

原文链接：https://yq.aliyun.com/articles/73367

版权

最初为数据挖掘准备的所有原始数据集通常很大，它们中的许多都和人有关，且比较杂乱。

初始数据集应包含丢失值，失真，误记录和不正当样本等。要得到高质量的数据，必须在分析者看到它们之前，先整理和预处理数据，使其就像设计合理，准备充分的数据仓库中的数据一样。

杂乱数据的来源和含义。数据杂乱的原因如下：

1、数据丢失的原因包括测量或者记录出错，有时候都无法获得数据值。在数据建模处理此问题时，必须能根据已有的数据甚至丢失的数据来建模。

2、数据的误记录，这在大数据集中非常常见。我们必须有能发现这些“异常”值的机制，某些情况下，甚至要用这些机制消除“异常”值对最终结果的影响

3、数据可能并不来自假定的样本母体。这里异常点就是典型的例子，分析人员要对它们进行仔细的分析，才能决定是将它们作为异常，从数据挖掘中剔除，还是将它们保留为所研究的样本母体的不寻常样本。

对于现代的大型数据集来说，必须依赖计算机程序来自动检查数据。

失真数据，方法上错误的步骤选择，滥用数据挖掘工具，模型过于理想化，未考虑数据中各种不确定性和模糊性的模型-所有这些都可能在数据挖掘过程中导致方向错误。因此，数据挖掘不只是简单地对已知问题应用一系列工具，而是一个批判性的鉴定，考查，检验和评估过程。数据在本质上应该是定义明确的，一致的和非易失性的。数据量要足够大，以支持数据分析，查询，汇报以及与长期历史数据进行比较。

数据挖掘过程中一个最关键的步骤是初始数据集的准备和转换。

原始数据并不总是能进行数据挖掘的最佳数据集，要对其进行许多转换，才能产生对所选的数据挖掘方法更有用的特征。

用不同的方式计算，采用不同的样本大小，选择重要的比率，针对时间相关数据改变数据窗口的大小，包活移动平均数的变化——所有这些都可能有助于获得更好的数据挖掘结果。

在数据挖掘应用的现实世界中，形势恰恰相反。数据准备比应用数据挖掘方法更加的耗时耗力。

数据准备阶段有两个中心任务：

1、把数据组织成一种标准形式，以便于数据挖掘工具和其他基于计算机的工具处理

2、准备数据集，使其能得到最佳的数据挖掘效果。

weixin_33851177

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘之数据准备——原始数据的特性

最初为数据挖掘准备的所有原始数据集通常很大，它们中的许多都和人有关，且比较杂乱。初始数据集应包含丢失值，失真，误记录和不正当样本等。要得到高质量的数据，必须在分析者看到它们之前，先整理和预处理数据，使其就像设计合理，准备充分的数据仓库中的数据一样。杂乱数据的来源和含义。数据杂乱的原因如下： 1、数据丢失的原因包括测量或者记录出错，有时候都...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。