【大数据开发基础】第四章数据挖掘的基本概念

1. 什么是数据挖掘

  1. 数据挖掘DM(Data Mining):从数据中发现知识
  2. 数据挖掘定义:数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则
  3. 这个定义包括以下几层含义:
    数据源必须是真实的、大量的、含噪声的;
    发现的是用户感兴趣的知识;
    发现的知识要可接受、可理解、可运用;
    并不要求发现放之四海皆准的知识,仅支持特定的问题

2. 数据挖掘可以挖掘的模式类型

2.1 关联分析(描述)

关联规则挖掘:反映一个事件和其他事件之间依赖或关联的知识。
广泛的用于购物篮或事务数据分析

2.2 聚类分析(描述)

聚类分析:最大化类内的相似性和最小化类间的相似性(无监督的学习方法),没有预先定义的类

找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。

2.3 分类(预测)

反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识 (有监督的学习方法),有预先定义的类

例如:垃圾邮件的识别

通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类

在这里插入图片描述

2.4 孤立点(离群点)分析(预测)

孤立点分析:对差异和极端特例的描述

孤立点:事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等;孤立点不一定都是没有价值的

异常检测通过构建正常行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值