数据挖掘——第一章 引论

《数据挖掘》—— 第1章 引论

第1章 引论

1.1 为什么进行数据挖掘

img

1.2 什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

1.3 可以挖掘什么类型的数据

  • 数据库数据

  • 数据仓库

  • 事务数据

  • 其他类型

    img

1.4 可以挖掘什么类型的模式

数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性 (descriptive)和预测性 (predictive)。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。

类/概念描述:特征化与区分

类或概念描述的获得方法:

  • 数据特征化,一般地汇总所研究类(目标类)的数据;
  • 数据区分,将目标类与一个或多个可比较类(对比类)进行比较;
  • 数据特征化和区分。

挖掘频繁模式、关联和相关性

  • 频繁模式:频繁项集(例如,商品的集合)、频繁子序列(序列模式。例如,先购买电脑,再购买相机,最后买内存卡)、频繁子结构(图、树或格);

用于预测分析的分类与回归

  • 分类:找出描述和区分数据类或概念的模型(函数),以便能够使用模型预测类标号未知的对象的类标号。(离散的、无序的)
  • 回归:建立连续值函数模型。用来预测缺失的或难以获得的数值数据值,而不是离散的类标号。

聚类分析

  • 聚类分析数据对象,而不考虑类标号。

离群点分析

  • 大部分数据挖掘方法将离群点(outlier)视为噪声或异常而丢弃。然而,在一些应用中(欺诈检测),罕见事件更令人感兴趣。

1.5 使用什么技术

image-20220727085500339
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值