数据挖掘与机器学习 期末复习整理

1.分类:

– 有类别标记信息, 因此是一种监督学习

– 根据训练样本获得分类器,然后把每个数据归结到某个已知的类,进而也可以预测未来数据的归类。

2.聚类:

– 无类别标记, 因此是一种无监督学习

– 无类别标记样本,根据信息相似度原则进行聚类,通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的关系

3.聚类方法:

  • 划分方法  - (分割类型)
  • K-均值K-Means
  • 顺序领导者方法
  • 基于模型的方法
  • 基于密度的方法
  • 层次方法(Hierarchical Methods)

4.K-means思想:

  • 确定K的值;
  • 随机选择K个样本点,每个样本点初始地代表一个类的平均值或簇中心;
  • 对剩余每个数据样本点,根据其到类中心的距离,被划分到最近的类;
  • 重新计算每个簇的平均值来更新每个簇中心;
  • 重复这个过程,直到所有样本都不能再分配为止;
  • 返回K中心。

5.K-means优点:

  • 1、简单,适用于常规不相交的簇。
  • 2、假设数据是呈球形分布,实际任务中很少有这种情况
  • 3、收敛相对较快。
  • 4、相对有效和可扩展 O(t·k·n)
  • t:迭代; k:中心数; n:数据点数

6.K-means 缺陷

  • 1、需要提前指定 K 的值。
  • 很难确定,关于数据集的先验知识(如数据集可以分成多少个部分)可能会有所帮助。
  • 2、可能会收敛到局部最优点。
  • 在实践中,尝试不同的初始中心点, 从中挑选最好的结果。
  • 3、可能对噪声数据和异常值敏感。
  • 因为簇的中心是取平均,因此聚类簇很远的地方的噪声会导致簇的中心点偏移(这表明均值并不是一种稳健的统计量)
  • 在k-means聚类前, 通过预处理移除噪声点往往非常有用
  • 聚类后, 对聚类结果进行一些后处理效果也很好, 如删除过小的聚簇, 或将彼此接近的一些聚簇合并成一个更大的聚簇
  • 4、不适合非凸不规则形状的簇,K均值很难处理非球状的簇和不同大小的簇。

7.DBSCAN基于密度 优缺点:

  1. 因为DBSCAN是基于密度定义的, 抗噪声能力强, 并且能够处理任意形状和大小的簇。即能发现使用K均值所不能发现的簇。但是当簇密度变化太大时, 可能会出现问题。
  2. 对于高维数据, 其密度定义困难。K均值可以用于稀疏的高维数据。
  3. 当近邻计算需要计算所有点对的邻近度时, DBSCAN的开销很大。

8.高斯混合模型与k-means:

  共同点:

  • 1、可用于聚类的算法
  • 2、都需要指定k的值
  • 3、都需要使用EM 算法求解
  • 4、往往只能收敛于局部最优

  GMM比k-means的优点是:

  • 1、可以给出一个样本属于一类的概率是多少,而不是绝对的属于哪一类
  • 2、可以用于生成新的样本点
  • 3、多维的时候,高斯混合模型需要计算协方差,考察不同维度时间的约束关系

9.查准率、查全率与F1:

假设原样本有两类(二分类问题),True和False,分类预测后:

1.总共有TP个类别为True的样本被系统判为True,FN个类别为True的样本被系统判为False

2.总共有TN个类别为False的样本被系统判为False,FP个类别为False的样本被系统判为True

真实情况预测结果
正例反例
正例TP(真正例)FN(假反例)
反例FP(假正例)TN(真反例)

指标计算:

查准率  eq?P%3D%5Cfrac%7BTP%7D%7BTP+FP%7D  --判断正样本中真正正样本的比例

查全率  eq?R%3D%5Cfrac%7BTP%7D%7BTP+FN%7D  --判断正确的比重(所有好瓜中有多少比例被挑出来)

F1度量  eq?F1%3D%5Cfrac%7B2*TP%7D%7Ball+TP-TN%7D   eq?F1%3D%5Cfrac%7B2*P*R%7D%7BP+R%7D

真正例率 eq?TPR%3D%5Cfrac%7BTP%7D%7BTP+FN%7D

假正例率 eq?FPR%3D%5Cfrac%7BFP%7D%7BTN+FP%7D

10.前向传播

  • 在前馈神经网络中
  • 从输入 x 到输出 y, 信息通过网络前向传播
  • 在训练阶段, 前向传播可以继续向前, 直到它产生标量代价函数C(θ)

11.反向传播

  • 允许来自代价函数的信息然后通过网络反向流动, 以便计算梯度
  • 可以被应用到任何函数

12.p 卷积:  

       图像中不同数据窗口的数据和卷积核(一个滤波矩阵)作内积的操作叫做卷积。其计算过程又称为滤波(filter),本质是提取图像不同频段的特征。

13.p 卷积核:

       具有的一个属性就是局部性。即它只关注局部特征,局部的程度取决于卷积核的大小。本质就是比较图像邻近像素的相似性。所以原图像与卷积核的卷积,其实对频域信息进行选择。比如,图像中的边缘和轮廓属于是高频信息,图像中某区域强度的综合考量属于低频信息

14.K-NN

  1.  对未知记录分类:
  2.  计算与各训练记录的距离
  3.  找出 k 个最近邻
  4.  使用最近邻的类标号决定未知记录的类标号 (例如, 多数表决)

有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,然后用少数服从多数的原则,给新数据归类。

15.k-NN的特点

  • 是一种基于实例的学习
  • 需要一个邻近性度量来确定实例间的相似性或距离
  • 不需要建立模型,但分类一个测试样例开销很大
  •  需要计算域所有训练实例之间的距离
  • 基于局部信息进行预测,对噪声非常敏感
  • 最近邻分类器可以生成任意形状的决策边界
  • 决策树和基于规则的分类器通常是直线决策边界
  • 需要适当的邻近性度量和数据预处理
  •  防止邻近性度量被某个属性左右

直接方法: 顺序覆盖或序贯覆盖(sequential covering)

         在训练集上每学到一条规则, 就将该规则覆盖的训练样例去除, 然后以剩下的训练样例组成训练集, 重复上述过程

16.SVM(支持向量机)

        SVM 是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。

  • 当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;
  • 当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;
  • 当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。
  • 当样本在原始空间线性不可分时,可将样本空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。而引入这样的映射后,所要求解的对偶问题的求解中,无需求解真正的映射函数,而只需要知道核函数。核函数的定义:K(x,y)=φ(x)·φ(y),即在特征空间的内积等于它们在原始样本空间中通过核函数 K 计算的结果。一方面数据变成了高维空间中线性可分的数据,另一方面不需要求解具体的映射函数,只需要给定具体的核函数即可,这样使得求解的难度大大降低。

17.维数灾难(curse of dimensionality)

       随着数据维度的增加,许多数据分析变得非常困难。特殊地,随着维度增加,数据在它所占据的空间中越来越稀疏

  • 对于分类,这可能意味没有足够的数据对象来创建模型
  • 对于聚类,点之间的密度和距离的定义(对聚类是至关重要的)变得不太有意义
  • 结果: 对于高维数据, 许多分类和聚类算法(以及其他数据分析算法)都有麻烦——分类准确率降低,聚类质量下降

18.维度归约目的

  • 避免维灾难
  • 降低数据挖掘算法的时间和内存消耗
  • 使数据更容易可视化
  • 能删除不相关的特征并降低噪声

19.PCA(降维方法-最大可分性)

PCA是无监督学习, 不考虑标记信息,目标是找到捕获数据中最大变化的投影

目的:数据降维、去噪,提取最有价值的信息(基于方差)

思想:将原始的高维(如维度为N)数据向一个较低维度(如维度为K)的空间投影,同时使得数据之间的区分度变大(找一个最好的轴,它的方差越大,使数据能分的越开)。这K维空间的每一个维度的基向量(坐标)就是一个主成分

把数据变换到一组新的基上,得到了新的特征的表达

问题:如何找到这K个主成分?

思路:使用方差信息,若在一个方向上发现数据分布的方差越大,则说明该投影方向越能体现数据中的主要信息。该投影方向即应当是一个主成分

20.LDA

LDA的目标是在保留尽可能多的类区分信息的同时进行降维.

  •         PCA,它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息。因此,虽然做了PCA后,整组数据在表示上更加方便(降低了维数并将信息损失降到最低),但在分类上也许会变得更加困难;LDA,在增加了分类信息之后,两组输入映射到了另外一个坐标轴上,有了这样一个映射,两组数据之间的就变得更易区分了(在低维上就可以区分,减少了很大的运算量)。
  •        所以PCA和LDA虽然都用到数据降维的思想,但是监督方式不一样,目的也不一样。PCA是为了去除原始数据集中冗余的维度,让投影子空间的各个维度的方差尽可能大,也就是熵尽可能大。LDA是通过数据降维找到那些具有discriminative的维度,使得原始数据在这些维度上的投影,不同类别尽可能区分开来。

 LDA的原理是,将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近。

21.决策树

决策树的生成由两个阶段组成

• 决策树构建

  1. 开始时,所有的训练样本都在根节点
  2. 递归的通过选定的属性,来划分样本 (必须是离散值)

• 树剪枝

  • 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检
  • 测和剪去这种分枝,防止过拟合。因为在决策树学习中,为了尽可能正确的分类训练样本,结点划分过程将不断重复,有时会造成决策树分枝过多,,训练数据拟合的太好,训练样本把自身的一些特点当做所有数据都有的一般性质而导致过拟合。
  • 当决策树很小时,训练和检验误差都很大,这种情况称为模型拟合不足。出现拟合不足的原因是模型尚未学习到数据的真实结构。(欠拟合)
  • 随着决策树中结点数的增加,模型的训练误差和检验误差都会随之下降。
  • 当树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,导致模型过分拟合

22.ID3算法

信息增益:对可取值数目较多的属性有所偏好

有明显弱点,例如:考虑将“编号”作为一个属性

21b757b1ff2b45969b58a39efdb2b878.png

23.C4.5算法

   先从候选划分属性中找出信息增益高于平均水平的,再从中选取增益率最高的

  • C4.5 对连续属性离散化,算法产生的分类规则易于理解,准确率高,但效率低,因为构造过程中许多次对数据集进行顺序扫描和排序
  • ID3算法在选择分裂属性时使用的是信息增益,这可能导致算法倾向于选择拥有多个属性值的属性作为分裂属性。而C4.5算法通过使用信息增益率作为选择标准,克服了这一不足。
  • 与C4.5算法不同,CART算法构建的是二叉树,即每个节点只有两个分支。然而,当处理具有多个取值的属性时,CART算法可能会产生较大的决策树。这是因为CART算法在分裂时会对属性值进行组合,选择最佳的两个组合分支。如果数据集中的属性取值较多,那么生成的决策树可能会比较大。

24.基尼指数

  • 我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。Ent(D)越小,则D 的纯度越高。
  • 信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大
  • 基尼指数Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,因此Gini(D)越小,则数据集D的纯度越高

1ec14af60af84de9a558541b36a9b370.png

 

  • 12
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
《Python数据挖掘机器学习》是魏伟一编著的一本关于Python数据挖掘机器学习的教材。这本教材主要介绍了Python编程语言在数据挖掘机器学习领域的应用。下面从几个方面对这本教材进行说明。 首先,教材对Python的基础知识进行了简要介绍,包括Python的安装与配置、Python基本语法、数据类型、函数、模块和文件操作等。这为读者提供了Python编程的基础,使读者能够更好地理解后续介绍的数据挖掘机器学习算法。 其次,教材详细介绍了数据挖掘的概念、方法和常用算法。其中包括数据预处理、数据探索、聚类分析、分类算法、关联规则挖掘等内容。针对每个算法,教材提供了详细的步骤和示例代码,帮助读者理解算法的原理和应用。 第三,教材还介绍了机器学习的基本概念和常用算法。包括监督学习、无监督学习、半监督学习和强化学习等。对于每个算法,教材提供了清晰的解释和实践示例,使读者能够理解算法的优缺点及其在实际问题中的应用。 最后,教材还介绍了Python常用的数据挖掘机器学习工具和库,如Scikit-learn、TensorFlow、Keras等。这些工具和库提供了丰富的函数和类,方便读者在实践中应用所学的知识。 总之,《Python数据挖掘机器学习》这本教材全面系统地介绍了Python在数据挖掘机器学习领域的应用。无论是初学者还是有一定编程基础的人都可以通过这本教材学习如何使用Python进行数据挖掘机器学习

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无敌猫鲜生

感谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值