有监督学习简介——阿里云课堂随堂笔记

最新推荐文章于 2023-07-27 08:30:00 发布

怕不是个弱智

最新推荐文章于 2023-07-27 08:30:00 发布

阅读量410

点赞数

分类专栏：机器学习文章标签：机器学习算法决策树

本文链接：https://blog.csdn.net/qq_40127785/article/details/118573221

版权

机器学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

有监督学习算法

有监督学习(Supervised learning)：利用一组已知类别的样本来训练模型，使其达到性能要求。

特点为输入数据（训练数据）均是一个明确的标识或结果（标签）。即我们提供样例”教“计算机如何学习。

分类：Classification

分类：就是通过已有的数据集（训练集）的学习，得到一个目标函数f（模型），把每个属性集x映射到目标属性y（类），且y必须是离散的（若y是连续的，则属于回归算法）。

通过对已知类别训练集的分析，从中发现分类规则，依次预测新数据的类型。

分类算法：

按原理分类：
- 基于统计的：如贝叶斯分类
- 基于规则的：如决策树算法
- 基于神经网络的：神经网络算法
- 基于距离的：KNN（K最近邻）
常用评估指标：
- 精确率：预测结果与实际结果的比例
- 召回率：预测结果中某类结果的正确覆盖率
- F1-Score：统计量，综合评估分类模型，取值0-1之间，越大越好

KNN

KNN：k-NearestNeighbour，分类算法最简单的算法之一，其核心思想是如果离某一个样本最近的k个样本中大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

KNN不但可以预测分类，还可以做回归分析(预测具体的值)。

有N个已知分类结果的样本点，对新记录r使用KNN将其分类的步骤：

确定k值，确定计算距离的公式，如欧氏距离
- 确定k的取值，确定距离公式
  - 欧氏距离公式：两点间的距离
  - 曼哈顿距离：绝对值距离，横纵坐标差值绝对值的和
  - 余弦相似度：dij = cos(0A，0B)，向量值计算
- k的取值不宜过大，使用交叉验证确定
计算r和其他样本点之间的距离dir，其中i∈(1,N)
- 计算r和所有样本点的距离
得到目前和r最接近的k个样本，作为KNN距的训练样本
- 圈定符合条件的k条记录
- 使用确定的距离计算公式计算所有点
- 将距离升序排序，得到top K 个的值，选入KNN样本
将k个样本中最多归属类别的分类标签赋予新记录r，分类结束。
- 统计k个样本中各分类的数量，从而确定新纪录r的分类

实现伪码

repeat
	计算已知类别数据集中的点与当前需预测点之间的距离
    按照距离递增排序
until 样本点遍历完成
返回前K个样本点
统计k个样本点中出现频率最高的类别标签

KNN优缺点

优点：
1. 原理简单、容易理解、容易实现
2. 重新训练代价低
3. 时间、空间复杂度取决于训练集（一般不算太大）
缺点：
1. KNN属于lazy-learning 算法，得到结果的及时性差
2. k值对结果影响大(试想K=1或K=N的极端情况)
3. 不同类记录相差较大时容易误差
4. 样本点较多时，计算量较大
5. 相对于决策树，结果的可解释性不强

决策树

构建流程

准备工作
- 明确自变量和因变量
- 确定信息度量的方式
- 确定终止条件
选择特征
- 得到当前待处理子集
- 计算所有特征信息度量
- 得到当前最佳分类特征
创建分支
- 根据选中特征将当前记录分为不同分支，分支的个数取决于算法
是否终止
- 判断是否满足终止条件
  
  满足则退出循环、不满足则继续递归调用
结果生成
- 判断是否需要剪枝
  
  需要则进行适当剪枝、不需则为最终结果。

熟悉数据，明确目标

观察数据，明确自变量和因变量
明确信息度量方式：信息增益
- 熵
- 基尼系数
明确分支终止条件
- 纯度：记录分支完成后所有选项是否符合
- 记录条数
- 循环次数

信息熵

信息论中的概念，香农提出
描述混乱程度的度量
取值范围0-1，值越大，越混乱

信息增益和特征选择

信息增益
- 信息是确定性的增加
- 从一个状态到另一个状态信息的变化
- 信息增益越大，对确定性贡献越大

例子：

搜索几种植物果实的颜色和味道，根据这两个信息确定是否为水果？

名称	颜色	甜味	水果
西红柿	红	否	否
黄瓜	绿色	否	否
苹果	红	是	是
火龙果	红	是	是

不考虑任何特征，直接去估计结果：2个水果，2个不是，概率2/4;

E = -2/4 *log(2/4,2)-2/4*log(2/4,2)=1

以颜色为参考信息来判断，红色3个中2个是水果，1个不是，绿色1个且不是水果，概率2/3，1/3,以及1，0；

E=3/4*(-2/3*log(2/3,2)-1/3*log(1/3,2))+1/4*(-1*log(1,2)-0) = 0.689

同理以味道为参考信息，判断可得“：

E = 2/4*(-2/2*log(2/2,2))+2/4*(-2/2*log(2/2,2)) = 0

信息增益：

颜色：1- 0.689 = 0.311
味道：1-0 = 1

构建决策树

在这里插入图片描述

选择当前最佳特征（循环判断）
1. 第一级特征选择
  1. 计算各分项的熵
  2. 计算信息增益
  3. 选择信息增益最大的分项作为第一级特征
2. 第二级特征选择
  
  和第一级特征选择一样，但是缺少了第一级特征
  
  当拆分的数据集中整体的熵均为0，纯度以满足退出条件选择
3. 第三…级特征选择
  
  和第一、二级特征选择一样，但是缺少了第一、二级特征
  
  当拆分的数据集中整体的熵均为0，纯度以满足退出条件选择
生成决策树

ID3系列算法：

ID3：
- 核心：信息熵，根据信息增益决定树的节点
- 存在的问题：
- 信息度量不合理：倾向于选择取值多的字段
- 输入类型单一：离散型
- 不做剪枝，容易发生过拟合
C4.5：和ID3相比的改进
- 用信息增益率代替信息增益
- 能对连续属性进行离散化，对不完整数据进行处理
- 进行剪枝
C50：C4.5 相比的改进
- 使用了boosting
- 前修建、后修建

CART

核心是基尼系数
分类是二叉树
支持连续值和离散值
后剪枝进行修建
支持回归，可以预测连续值

在这里插入图片描述

ID3是经典的决策树原型（demo），他能很好的表现决策树处理问题的思路和想法，但在实际项目中很少使用

怕不是个弱智

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
有监督学习简介——阿里云课堂随堂笔记

有监督学习算法有监督学习(Supervised learning)：利用一组已知类别的样本来训练模型，使其达到性能要求。特点为输入数据（训练数据）均是一个明确的标识或结果（标签）。即我们提供样例”教“计算机如何学习。分类：Classification分类：就是通过已有的数据集（训练集）的学习，得到一个目标函数f（模型），把每个属性集x映射到目标属性y（类），且y必须是离散的（若y是连续的，则属于回归算法）。通过对已知类别训练集的分析，从中发现分类规则，依次预测新数据的类型。分类算法：按原理分
复制链接

扫一扫