数据挖掘——大型数据集

最新推荐文章于 2023-10-21 16:26:46 发布

weixin_33787529

最新推荐文章于 2023-10-21 16:26:46 发布

阅读量518

点赞数

文章标签：数据库大数据

原文链接：https://yq.aliyun.com/articles/73024

版权

df7e3a6cfc41b710cc5fd0bddd75e7ccf05df0d7

我们分析和理解大规模数据集（成为大数据）的能力，远远落后于采集和存储数据的能力。

数据采集和存储能力得益于计算，通信，数字化存储技术的不断发展以及高吞吐量的数据获取技术。

数字化信息的大型数据库无处不在，附近商店的结账记录，银行信用卡授权机构，医院办公室中的病例记录以及许多应用程序中的数据都会生成数字记录流，放在巨大的商业数据库中。

数据搜集和组织能力与数据分析能力之间的差距正在迅速扩大。问题的根源在于数据多出进行手工分析和解释，甚或基于计算机的半自动化分析，其规模和维数都太大了。

目前唯一的解决办法是用新的数据挖掘技术来代替传统的数据分析和解释方法。

数据可分为结构化数据，半结构化数据和非结构化数据。

结构化数据由定义明确的字段组成，这些字段包含数字值或者字母数字值。半结构化数据的例子有商务文档的电子图像，医学报告，执行概要和修复手册等。非结构化数据的例子有百货商店的监视摄像机所记录的录像等。

结构化数据通常成为传统数据，半结构化数据和非结构化数据合称为非传统数据。

对结构化数据进行数据挖掘的标准模型是一组案例，它们指定了潜在的度量（成为特征），这些特征在许多案例中的测量方式都相同。数据挖掘问题的结构化数据通常以表格表示或者用单个关系来表述。

大型数据集包括带有混合数据类型的数据集，是应用数据挖掘技术的典型初始环境。

大型数据集放在计算机中时在运用数据挖掘技术前首先要解决数据质量这个重要的问题。必须在数据挖掘过程的早期阶段进行数据质量的分析。

数据质量可以限制最终用户做出明智决策的能力，他对系统的映像有深渊的影响，并决定了隐含着描述的相应模型。

在数据挖掘过程的数据处理阶段应考虑这些指标：

1. 数据应当准确。

2.应该根据数据类型来存储数据

3.数据应该完整

4.数据要一致，集成了不同来源的大型数据集后，数据的形式和内容应一致。

5.数据不要有冗余

6.数据应当具有时效性

7.数据应当能被正确的理解。

8.数据集应完整。将现实中数据丢失的情形降到最低，同时要采用健壮性的数据挖掘技术即可以分析丢失了值的数据集

weixin_33787529

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘——大型数据集

我们分析和理解大规模数据集（成为大数据）的能力，远远落后于采集和存储数据的能力。数据采集和存储能力得益于计算，通信，数字化存储技术的不断发展以及高吞吐量的数据获取技术。数字化信息的大型数据库无处不在，附近商店的结账记录，银行信用卡授权机构，医院办公室中的病例记录以及许多应用程序中的数据都会生成数字记录流，放在巨大的商业数据库中。数据搜集和组...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。