数据挖掘复习

本文详细介绍了数据挖掘的基础概念,关联规则挖掘、决策树、贝叶斯分类、支持向量机以及聚类算法如K-means,强调了在实际应用中如K-means的优缺点和解决方案。此外,还探讨了数据预处理的关键步骤,如数据清理、数据集成、数据变换和数据规约,以及数据挖掘中的关键算法和评估标准。
摘要由CSDN通过智能技术生成

第一章

数据挖掘的概念

  • 从数据库的大量数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。

数据挖掘和那些学科有关联

  • 机器学习、人工智能、数据库理论、统计学

数据挖掘的研究内容及功能

  • 目前数据挖掘的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及Web数据挖掘等。

  • 数据挖掘的功能:类/概念描述:特征化和区分,关联分析,分类和预测, 聚类分析,孤立点分析,演变分析

第二章

2.1 数据与处理的目的
2.2 数据清理
2.3 数据集成和数据变换
2.4 数据规约

  • 数据预处理(Data Preprocessing):是指在对数据进行数据挖掘的主要处理以前,先对原始数据进行必要的清理、集成、转换、离散和归约等一系列的处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。
  • 常见的数据预处理方法有:
    • 数据清理:明确有缺失值怎么处理(列出两三种处理缺失值的方法:忽略元组,人工填写缺失值)
    • 数据集成:就是将来自多个数据源的数据合并到一起,形成一致的数据存储
    • 数据变换:主要是将数据转换成适合于挖掘的形式,如将属性数据按比例缩放
    • 数据归约 :在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的办法压缩数据,提高挖掘模式的质量,降低时间复杂度
  • 噪声(Noise)是指被测量变量的随机误差或方差。给定一个数值属性,如Price,我们怎样才能“光滑”数据去掉噪声?常见的数据光滑技术包含如下几种:
    • 分箱(Binning):分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据的值,有序值通常分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此用来进行局部光滑。一般来说,宽度越大光滑效果越大,箱也可以是等宽的,即每个箱值的区间范围是个常量
      • 等深分箱:就是平均分配
      • 等宽分箱:就是比如直方图中X值按照一个区间划分,但个数不一定相等
    • 回归:可以用一个函数(如回归函数)进行数据拟合来达到光滑数据的目的。线性回归涉及找出拟合两个属性(或变量)的“最佳”线,使得一个属性可以用来预测另一个属性。
    • 聚类:可以通过聚类检测离群点,将类似的值组织成群或“簇”。直观地,落在簇集合之外的值视为离群点
  • 连续域:可以使用皮尔逊相关系数R 理解这东西什么含义
    • 相关系数rA,B的值在区间[-1.1]中。大于0则为正相关,小于0则负相关,等于0则认为AB相互独立。
    • image-20210119160221692
  • 离散域:可以使用卡方检验 记住公式
    • image-20210119160641131
  • 理解化妆例子:
    • image-20210120084721214
    • image-20210120084742451
    • image-20210120084749231
    • image-20210120084800055
  • 数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,对于年龄这种数值属性,“原始数据”可能包含20、30、40、50、60、70等,可以将上述数据映射到较高层的概念,如青年、中年和老年。
  • 规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.01.0或0.01.0。规范化可以消除数值型属性因大小不一而造成的挖掘结果偏差。
    • 掌握其中最少两种方法,给数据要算的出来:
    • 最大-最小规范化:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值