数据分析的三个机器学习算法

最新推荐文章于 2024-05-03 16:53:09 发布

、 ♥ 盖世英雄

最新推荐文章于 2024-05-03 16:53:09 发布

阅读量1.4k

点赞数

分类专栏：数据分析 Python

本文链接：https://blog.csdn.net/qq_44013332/article/details/101471023

版权

数据分析的三个机器学习算法knn算法（邻近算法）采用测量不同特征值之间的距离方法进行分类优点：精度高，对异常值不敏感，无数据输入假定。缺点：时间复杂度高，空间复杂度高。1、当样本不平衡时，比如一个类的样本容量很大，其他类的样本容量很小，输入一个样本的时候，K个临近值中大多数都是大样本容量的那个类，这时可能就会导致分类错误。改进方法是对K临近点进行加权，也就是距离近的点的权值大，距离远的点...

摘要由CSDN通过智能技术生成

数据分析的三个机器学习算法

knn算法（邻近算法）

采用测量不同特征值之间的距离方法进行分类
优点：精度高，对异常值不敏感，无数据输入假定。
缺点：时间复杂度高，空间复杂度高。

1、当样本不平衡时，比如一个类的样本容量很大，其他类的样本容量很小，输入一个样本的时候，K个临近值中大多数都是大样本容量的那个类，这时可能就会导致分类错误。改进方法是对K临近点进行加权，也就是距离近的点的权值大，距离远的点权值小。

2、计算量较大，每个待分类的样本都要计算它到全部点的距离，根据距离排序才能求得K个临近点，改进方法是：先对已知样本点进行剪辑，事先去除对分类作用不大的样本。

工作原理
训练样本集
存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前K个最相似的数据，这就是K-近邻算法中K的出处,通常K是不大于20的整数。最后，选择K个最相似数据中出现次数最多的分类，作为新数据的分类。
实现步骤
1，处理数据
2，数据向量化
3，计算欧几里得距离
公式：在这里插入图片描述
4，根据距离进行分类
•总结
KNN是一种基于记忆的学习(memory-based learning)，也是基于实例的学习(instance-based learning)，属于惰性学习(lazy learning)。即它没有明显的前期训练过程，而是程序开始运行时，把数据集加载到内存后，不需要进行训练，就可以开始分类了。

决策树

定义：是一种描述对实例进行分类的树状结构。由节点和有向边组成
节点又分为内部节点和叶节点
内部节点表示一个特征或者属性；叶节点表示一个类

决策树算法3要素：
•特征选择
•决策树生成
•决策树剪枝

特征选择准则：

目的：使用某特征对数据集划分之后，各数据子集的纯度要比划分前的数据集D的纯度高（不确定性要比划分前数据集D的不确定性低。）

注意：

     1. 划分后的纯度为各数据子集的纯度的加和（子集占比*子集的经验熵）。

     2. 度量划分前后的纯度变化 用子集的纯度之和与划分前的数据集D的纯度 进行对比

熵：样本集的数据纯度（物体内部混乱程度）；熵越大，纯度越低
当数据集都是同一类别时，熵为0；

信息增溢：Gain(D,A)=H(D)-H(D/A)（信息增益最大的被选作根节点，也就是特征值）
集合的经验熵H(D)与特征A给定条件下D的经验条件熵H(D/A)之差

信息增益（ ID3算法）
定义：以某特征划分数据集前后的熵的差值
熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。

  划分前样本集合D的熵是一定的 ，entroy(前)，

  使用某个特征A划分数据集D，计算划分后的数据子集的熵 entroy(后)

                               信息增益 =  entroy(前) -  entroy(后)

做法：计算使用所有特征划分数据集D，得到多个特征划分数据集D的信息增益，从这些信息增益中选择最大的，因而当前结点的划分特征便是使信息增益最大的划分所使用的特征

信息增益的理解：

           对于待划分的数据集D，其 entroy(前)是一定的，但是划分之后的熵 entroy(后)是不定的，entroy(后)越小说明使用此特征划分得到的子集的不确定性越小（也就是纯度越高），因此 entroy(前) -  entroy(后)差异越大，说明使用当前特征划分数据集D的话，其纯度上升的更快。而我们在构建最优的决策树的时候总希望能更快速到达纯度更高的集合，这一点可以参考优化算法中的梯度下降算法，每一步沿着负梯度方法最小化损失函数的原因就是负梯度方向是函数值减小最快的方向。同理：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集D。

缺点：信息增益偏向取值较多的特征

   原因：当特征的取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分之后的熵更低，由于划分前的熵是一定的，因此信息增益更大，因此信息增益比较 偏向取值较多的特征。

• 解决方法 : 信息增益率（ C4.5算法）

  信息增益比 = 惩罚参数 * 信息增益


   注意：其中的HA(D)，对于样本集合D，将当前特征A作为随机变量（取值是特征A的各个特征值），求得的经验熵。

  （之前是把集合类别作为随机变量，现在把某个特征作为随机变量，按照此特征的特征取值对集合D进行划分，计算熵HA(D)）



  信息增益比本质： 是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

    惩罚参数：数据集D以特征A作为随机变量的熵的倒数，即：将特征A取值相同的样本划分到同一个子集中（之前所说数据集的熵是依据类别进行划分的）

    

    缺点：信息增益比偏向取值较少的特征   

    原因：  当特征取值较少时HA(D)的值较小，因此其倒数较大，因而信息增益比较大。因而偏向取值较少的特征。

    使用信息增益比：基于以上缺点，并不是直接选择信息增益率最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征。

•基尼指数（ CART算法 —分类树）

定义：基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。

    注意： Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

即基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率

说明:

pk表示选中的样本属于k类别的概率，则这个样本被分错的概率是(1-pk)
样本集合中有K个类别，一个随机选中的样本可以属于这k个类别中的任意一个，因而对类别就加和
当为二分类是，Gini§ = 2p(1-p)

样本集合D的Gini指数：假设集合中有K个类别，则：

在这里插入图片描述

if y>a:
   output dot
else
  if x<b:
    output cross
  else:
    output dot

上面代码对应的图示：
在这里插入图片描述
解释：将新样本输入决策树进行判决时，就是将样本在决策树自顶向下，依据决策树的节点规划进行遍历，最终落入的叶子结点（就是不可再划分的节点）就是该样本所属的分类。

from math import log
import operator

"""
函数说明：计算给定数据集的经验熵（香农熵）
Parameters：
    dataSet：数据集
Returns：
    shannonEnt：经验熵
Modify：
    2018-03-12

"""
def calcShannonEnt(dataSet):
    #返回数据集行数
    numEntries=len(dataSet)
    #保存每个标签（label）出现次数的字典
    labelCounts={
   }
    #对每组特征向量进行统计
    for featVec in dataSet:
        currentLabel=featVec[-1]                     #提取标签信息
        if currentLabel not in labelCounts.keys()

最低0.47元/天解锁文章

、 ♥ 盖世英雄

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据分析的三个机器学习算法

数据分析的三个机器学习算法knn算法（邻近算法）采用测量不同特征值之间的距离方法进行分类优点：精度高，对异常值不敏感，无数据输入假定。缺点：时间复杂度高，空间复杂度高。1、当样本不平衡时，比如一个类的样本容量很大，其他类的样本容量很小，输入一个样本的时候，K个临近值中大多数都是大样本容量的那个类，这时可能就会导致分类错误。改进方法是对K临近点进行加权，也就是距离近的点的权值大，距离远的点...
复制链接

扫一扫

专栏目录