《数据挖掘导论》 第一章 绪论

数据挖掘是从大量数据中提取知识的过程,涉及数据预处理、模式发现和后处理。它融合了统计学、机器学习和数据库技术。主要任务包括聚类、预测建模、关联分析和异常检测。数据挖掘面临数据量大、维度高、异构性和数据所有权等问题。
摘要由CSDN通过智能技术生成

第一章 绪论

什么是数据挖掘?

  • 过程:输入数据->数据预处理->数据挖掘->后处理->输出信息

  • 数据预处理:

    • 特征选择
    • 维归约
    • 规范化
    • 选择数据子集
  • 后处理:

    • 模式过滤
    • 可视化
    • 模式表示

数据挖掘的起源

  • 汇集其他学科的知识:
    • 来自统计学的抽样、估计和假设检验
    • 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论
  • 需要其他领域的支撑:
    • 数据库技术
    • 并行计算
    • 分布式计算

数据挖掘任务

两大类任务
  • 预测任务:
    • 自变量 & 因变量
  • 描述任务
    • 导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)
四中主要数据挖掘任务
  • 聚类分析

    • 旨在发现紧密相关的观测值组群
    • 使得组内的distance最小,组间的distance最大
    • 针对大型的数据,从每个类别之间对数据进行采样,期待采样的数据能代表原始数据集的特征,在采样的数据中进行挖掘。
  • <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值