数据挖掘——大型数据集

df7e3a6cfc41b710cc5fd0bddd75e7ccf05df0d7

我们分析和理解大规模数据集(成为大数据)的能力,远远落后于采集和存储数据的能力。


数据采集和存储能力得益于计算,通信,数字化存储技术的不断发展以及高吞吐量的数据获取技术。


数字化信息的大型数据库无处不在,附近商店的结账记录,银行信用卡授权机构,医院办公室中的病例记录以及许多应用程序中的数据都会生成数字记录流,放在巨大的商业数据库中。


数据搜集和组织能力数据分析能力之间的差距正在迅速扩大。问题的根源在于数据多出进行手工分析和解释,甚或基于计算机的半自动化分析,其规模和维数都太大了。


目前唯一的解决办法是用新的数据挖掘技术来代替传统的数据分析和解释方法


数据可分为结构化数据半结构化数据非结构化数据


结构化数据由定义明确的字段组成,这些字段包含数字值或者字母数字值。半结构化数据的例子有商务文档的电子图像,医学报告,执行概要和修复手册等。非结构化数据的例子有百货商店的监视摄像机所记录的录像等。


结构化数据通常成为传统数据,半结构化数据和非结构化数据合称为非传统数据。


对结构化数据进行数据挖掘的标准模型是一组案例,它们指定了潜在的度量(成为特征),这些特征在许多案例中的测量方式都相同。数据挖掘问题的结构化数据通常以表格表示或者用单个关系来表述。


大型数据集包括带有混合数据类型的数据集,是应用数据挖掘技术的典型初始环境。


大型数据集放在计算机中时在运用数据挖掘技术前首先要解决数据质量这个重要的问题。必须在数据挖掘过程的早期阶段进行数据质量的分析。


数据质量可以限制最终用户做出明智决策的能力,他对系统的映像有深渊的影响,并决定了隐含着描述的相应模型。


在数据挖掘过程的数据处理阶段应考虑这些指标:


   1. 数据应当准确。


   2.应该根据数据类型来存储数据


   3.数据应该完整


   4.数据要一致,集成了不同来源的大型数据集后,数据的形式和内容应一致。


   5.数据不要有冗余


   6.数据应当具有时效性


   7.数据应当能被正确的理解。


   8.数据集应完整。将现实中数据丢失的情形降到最低,同时要采用健壮性的数据挖掘技术即可以分析丢失了值的数据集






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值