《数据挖掘导论》:第一章笔记

1.1 什么是数据挖掘
数据网挖掘是在大型数据存储库中,自动地发现有用信息的过程。
并非所有信息发现任务都被视为数据挖掘。

数据框中知识发现(KDD)
数据挖掘是KDD中不可缺少的一部分。
在这里插入图片描述
1.2 数据挖掘要解决的问题

  • 可伸缩性
  • 高维性
  • 异种数据和复杂数据
  • 数据的所有权与分布
  • 非传统的分析

1.3 数据挖掘与其他领域的联系
在这里插入图片描述
其中,数据库技术、并行计算、分布式计算起到了重要的支撑性作用。
1.4 数据挖掘任务
预测任务:根据其他属性的值,预测特定属性的值。被预测的属性通常称为目标变量或者因变量;用来预测的变量通常称为说明变量或者自变量。
描述任务:其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。
四种主要的数据挖掘任务
预测建模:分类:预测离散的目标变量;回归:预测连续的目标变量。
关联分析:用来发现描述数据中强关联特征的模式。
聚类分析:旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。
异常检测:识别其特征显著不同于其他数据的观测值。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值