数据挖掘和大数据分析

数据: 是对事物审慎、客观的记录。是以一种结构化的方式记录事件发生的相关数据。
大数据: 是无法被传统工具直接出处理、分析的数据,大多是半结构化以及非结构化数据,仅有少量是结构化数据。

  • 结构化数据是有关联性定义的固定结构数据。如:数据库里的每一条数据。
  • 半结构化数据是具有一定程度的编码设定与格式,但仍有部分数据无法统一格式。如:电子邮件、HTML的网页数据。
  • 非结构化数据没有统一格式。如:图片、声音、影像等数据。

数据挖掘和大数据分析架构与步骤

1)问题定义与架构

问题定义阶段,必须先了解问题相关的背景知识及问题特性,以清楚地陈述数据挖掘的目标,并定义试图解决的问题,将目标设定在有兴趣的挖掘对象上。

2)数据准备

数据准备的目的是进一步了解数据,并过滤不当数据以确认数据格式与特性。
数据预处理技术主要包含:数据清理、数据整合、数据转换、数据规约。
① 数据清理:包含遗漏值的处理、平滑杂乱数据、找出离群值,并纠正数据的不一致性。
② 数据整合:将多个数据中的数据整合存放在一致的数据库中。如:单位定义差异(元、千元),格式不一致(2020.9.15、2020/9/15;男/女、M/W),数据冗余(产品销售额 = 产品数*单价)。
③ 数据转换:将数据转化成适合挖掘的形式。如:标准化,将属性数据按比例缩放,把原有数据置入一个小的特定区间。
④ 数据规约:减少原始数据量,但同时应尽可能地保留数据的完整性,以权衡信息的保存与处理效果。

3)建立挖掘模式

选择合适的数据挖掘工具,数据挖掘工具各有所长,并没有所谓绝对最佳的方法,工具的选择与问题本身和所搜集的数据类型息息相关。
常用的数据挖掘工具有:统计分析、人工神经网络、决策树、关联规则、聚类分析、粗糙集、支持向量机。

4)结果解释与评估

对不同 的数据挖掘模式得出的结果所采用的评估指标也不同,如:分类的正确性,模型误差大小、群体间的相似程度、分析所需时间等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值