机器学习基本概念

前言

上课整理的笔记…

----------------------------------------正文分割线--------------------------------------------------------

目录

  • 学习的概念

  • 监督学习

  • 损失函数与风险函数

  • 模型评估与模型选择

  • 正则化与交叉验证

  • 泛化能力

  • 生成模型与判别模型

  • 分类、标注与回归问题

1.学习的概念

1.1 机器学习的发展历程

  • 人工智能的发展

    • 机器逻辑推理期 —— 机器做证明题

    • 知识工程 —— 专家系统

    • 学习期 —— 机器自己能够学习知识

  • 机器学习

    • 连接主义 —— 神经网络/感知机

    • 符号主义 —— 决策树

    • 统计学习 —— 支持向量机/核方法

    • 连接主义 —— 深度学习

1.2 机器学习的定义

  • Herbert A. Simon: 如果一个系统能够通过执行某个过程改进它的 性能,这就是学习

  • Tom M. Mitchell:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E(假设用 P 来评估计算机程序在某些任务类 T 上 的性能,若一个程序通过利用经验 E 在 T 中任务上获得了性能改 善,则我们就说关于 T 和 P,该程序对 E 进行了学习 ) – 1997

1.3 机器学习的特点

  • 以计算机及网络为平台

  • 以数据为研究对象,数据驱动的学科

  • 以对数据进行预测和分析为研究目的

  • 以方法为中心

  • 多学科交叉,涉及概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域

1.4 机器学习的目的

  • 对数据进行预测与分析

  • 特别是对未知新数据进行预测与分析

  • 构建概率统计模型

  • 总结:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也考虑尽可能提高学习效率

1.5 机器学习方法

  • 基于数据构建统计模型从而对数据进行预测与分析

  • 包括监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)

  • 监督学习:从给定的、有限的、用于学习的训练数据集合出发, 假设数据是独立同分布产生的;并且假设要学习的模型属于某个 函数的集合,称为假设空间(hypothesis space);应用某个评价 准则,从假设空间中选取一个最优的模型;最有模型的选取由算法实现

  • 学习的三要素:模型(model)、策略(strategy)、算法 (algorithm)

1.6 机器学习方法的主要步骤

  • 得到一个有限的训练数据集合;
  • 确定包含所有可能的模型的假设空间,即学习模型的集合;
  • 确定模型选择的准则,即学习的策略;
  • 实现求解最优模型的算法,即学习的算法;
  • 通过学习方法选择最优模型;
  • 利用学习的最优模型对新数据进行预测与分析

2.监督学习

2.1监督学习的任务

​ 学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测

2.2 基本概念

  • 输入空间:输入所有可能取值的集合称之为输入空间(input space)
  • 输出空间:输出所有可能取值的集合称之为输出空间(output space)
  • 输入输出空间可以是同一个空间,也可以是不同空间
  • 每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示
  • 所有特征向量存在的空间称为特征空间(feature space),特征空间的每一维对应于一个特征
  • 输入空间与特征空间可以相同,也可以不同;不同时,将实例从输入空间映射到特征空间
  • 模型实际上都是定义在特征空间上的

在这里插入图片描述

2.3 联合概率分布

  • 假设输入与输出的随机变量𝑋,Y 遵循联合概率分布 P(𝑋, Y)
  • 训练数据与测试数据被看作是依联合概率分布 P(𝑋, Y) 独立同分布产生的
  • 对于学习系统来说,联合概率分布的具体定义是未知的

2.4 假设空间

  • 模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)
  • 假设空间的确定意味着学习范围的确定
  • 假设空间能够很好的防止过拟合,但是也带来了归纳偏置问题

2.5 西瓜问题

  • 如何在不剖开西瓜的前提下判断一个瓜是好瓜还是坏瓜?目的

  • 可以通过观察西瓜的色泽、根蒂,敲打西瓜的声音来判断 —— 假设空间

  • 数据集:(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……

  • 每一条记录表示一个示例或样本,或一个特征向量

  • 反映事件或对象在某个方面的表现或性质的事项称为属性或特征 —— 色泽

  • 属性上的取值为属性值 —— 青绿

  • 属性张成的空间称为属性空间、样本空间或者输入空间 —— 色泽、根蒂、敲声构成一个三维空间

  • 样本“结果”的信息,((色泽=青绿;根蒂=蜷缩;敲声=浊响), 好瓜)

  • 标记,关于示例结果的信息 —— 好瓜

  • 所有标记的集合,称为标记空间,或输出空间

  • 如果欲预测的是离散值“好瓜”、“坏瓜”,为分类问题

  • 如果欲预测的是连续值,如西瓜的成熟度0.95,0.59等,是回归问题

  • 如果将训练集中的西瓜分成若干组,例如浅色瓜、深色瓜等,称为聚类

  • 如果训练集中没有标记,则为无监督学习,如果有标记则为监督学习

  • 分类和回归是监督学习,而聚类则是无监督学习

2.6 问题的形式化

在这里插入图片描述

3.损失函数与风险函数

3.1损失函数

在这里插入图片描述

3.2 风险函数

在这里插入图片描述

3.3 经验风险

在这里插入图片描述

4.模型评估与模型选择

4.1 模型选择

在这里插入图片描述

在这里插入图片描述

4.2 模型选择的方法

  • 正则化

  • 交叉验证

4.3 模型评估方法

  • 评估模型主要依靠测试集
  • 一般将包含 m 个样例的数据集,通过一定的处理,从中产生出训 练集和测试集
  • 常用的处理办法主要有三种:留出法、交叉验证和自助法
4.3.1 留出法

在这里插入图片描述

4.3.2 交叉验证法

在这里插入图片描述

4.3.3 自助法

在这里插入图片描述

4.4 参数调整

在这里插入图片描述

5.正则化与交叉验证





6.泛化能力


6.1 概念

在这里插入图片描述

6.2 二分类问题的泛化误差上届

在这里插入图片描述

7.生成模型与判别模型

在这里插入图片描述

8.分类、标注与回归问题

8.1 分类问题

在这里插入图片描述
在这里插入图片描述

8.2 P-R曲线

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.3 ROC与AUC

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.4 代价敏感错误率

在这里插入图片描述
在这里插入图片描述

8.5 代价曲线

在这里插入图片描述

8.6 假设检验

在这里插入图片描述
在这里插入图片描述

8.7 偏差-方差分解

在这里插入图片描述
在这里插入图片描述

8.8 回归任务中的偏差-方差分解

在这里插入图片描述

8.9 回归问题

在这里插入图片描述

8.10 标注问题

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值