有监督学习简介——阿里云课堂随堂笔记

有监督学习算法

有监督学习(Supervised learning):利用一组已知类别的样本来训练模型,使其达到性能要求。

特点为输入数据(训练数据)均是一个明确的标识或结果(标签)。即我们提供样例”教“计算机如何学习。

分类:Classification

分类:就是通过已有的数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y是连续的,则属于回归算法)。

通过对已知类别训练集的分析,从中发现分类规则,依次预测新数据的类型。

分类算法:

  • 按原理分类:
    • 基于统计的:如贝叶斯分类
    • 基于规则的:如决策树算法
    • 基于神经网络的:神经网络算法
    • 基于距离的:KNN(K最近邻)
  • 常用评估指标:
    • 精确率:预测结果与实际结果的比例
    • 召回率:预测结果中某类结果的正确覆盖率
    • F1-Score:统计量,综合评估分类模型,取值0-1之间,越大越好

KNN

KNN:k-NearestNeighbour,分类算法最简单的算法之一,其核心思想是如果离某一个样本最近的k个样本中大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

KNN不但可以预测分类,还可以做回归分析(预测具体的值)。

有N个已知分类结果的样本点,对新记录r使用KNN将其分类的步骤:

  1. 确定k值,确定计算距离的公式,如欧氏距离
    • 确定k的取值,确定距离公式
      • 欧氏距离公式:两点间的距离
      • 曼哈顿距离:绝对值距离,横纵坐标差值绝对值的和
      • 余弦相似度:dij = cos(0A,0B),向量值计算
    • k的取值不宜过大,使用交叉验证确定
  2. 计算r和其他样本点之间的距离dir,其中i∈(1,N)
    • 计算r和所有样本点的距离
  3. 得到目前和r最接近的k个样本,作为KNN距的训练样本
    • 圈定符合条件的k条记录
    • 使用确定的距离计算公式计算所有点
    • 将距离升序排序,得到top K 个的值,选入KNN样本
  4. 将k个样本中最多归属类别的分类标签赋予新记录r,分类结束。
    • 统计k个样本中各分类的数量,从而确定新纪录r的分类

实现伪码

repeat
	计算已知类别数据集中的点与当前需预测点之间的距离
    按照距离递增排序
until 样本点遍历完成
返回前K个样本点
统计k个样本点中出现频率最高的类别标签

KNN优缺点

  • 优点:
    1. 原理简单、容易理解、容易实现
    2. 重新训练代价低
    3. 时间、空间复杂度取决于训练集(一般不算太大)
  • 缺点:
    1. KNN属于lazy-learning 算法,得到结果的及时性差
    2. k值对结果影响大(试想K=1或K=N的极端情况)
    3. 不同类记录相差较大时容易误差
    4. 样本点较多时,计算量较大
    5. 相对于决策树,结果的可解释性不强

决策树

构建流程

  1. 准备工作

    • 明确自变量和因变量
    • 确定信息度量的方式
    • 确定终止条件
  2. 选择特征

    • 得到当前待处理子集
    • 计算所有特征信息度量
    • 得到当前最佳分类特征
  3. 创建分支

    • 根据选中特征将当前记录分为不同分支,分支的个数取决于算法
  4. 是否终止

    • 判断是否满足终止条件

      满足则退出循环、不满足则继续递归调用

  5. 结果生成

    • 判断是否需要剪枝

      需要则进行适当剪枝、不需则为最终结果。

熟悉数据,明确目标

  1. 观察数据,明确自变量因变量
  2. 明确信息度量方式:信息增益
    • 基尼系数
  3. 明确分支终止条件
    • 纯度:记录分支完成后所有选项是否符合
    • 记录条数
    • 循环次数

信息熵

  • 信息论中的概念,香农提出
  • 描述混乱程度的度量
  • 取值范围0-1,值越大,越混乱

信息增益和特征选择

  • 信息增益
    • 信息是确定性的增加
    • 从一个状态到另一个状态信息的变化
    • 信息增益越大,对确定性贡献越大

例子:

搜索几种植物果实的颜色和味道,根据这两个信息确定是否为水果?

名称颜色甜味水果
西红柿
黄瓜绿色
苹果
火龙果

不考虑任何特征,直接去估计结果:2个水果,2个不是,概率2/4;

E = -2/4 *log(2/4,2)-2/4*log(2/4,2)=1

以颜色为参考信息来判断,红色3个中2个是水果,1个不是,绿色1个且不是水果,概率2/3,1/3,以及1,0;

E=3/4*(-2/3*log(2/3,2)-1/3*log(1/3,2))+1/4*(-1*log(1,2)-0) = 0.689

同理 以 味道为参考信息,判断可得“:

E = 2/4*(-2/2*log(2/2,2))+2/4*(-2/2*log(2/2,2)) = 0

信息增益:

  • 颜色:1- 0.689 = 0.311
  • 味道:1-0 = 1

构建决策树

  • ID3

在这里插入图片描述

  1. 选择当前最佳特征(循环判断)

    1. 第一级特征选择

      1. 计算各分项的熵
      2. 计算信息增益
      3. 选择信息增益最大的分项作为第一级特征
    2. 第二级特征选择

      和第一级特征选择一样,但是缺少了第一级特征

      当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择

    3. 第三…级特征选择

      和第一、二级特征选择一样,但是缺少了第一、二级特征

      当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择

  2. 生成决策树

ID3系列算法:

  1. ID3:

    • 核心:信息熵,根据信息增益决定树的节点
    • 存在的问题:
    • 信息度量不合理:倾向于选择取值多的字段
    • 输入类型单一:离散型
    • 不做剪枝,容易发生过拟合
  2. C4.5:和ID3相比的改进

    • 用信息增益率代替信息增益
    • 能对连续属性进行离散化,对不完整数据进行处理
    • 进行剪枝
  3. C50:C4.5 相比的改进

    • 使用了boosting
    • 前修建、后修建

CART

  • 核心是基尼系数
  • 分类是二叉树
  • 支持连续值和离散值
  • 后剪枝进行修建
  • 支持回归,可以预测连续值

在这里插入图片描述

ID3是经典的决策树原型(demo),他能很好的表现决策树处理问题的思路和想法,但在实际项目中很少使用

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值