西瓜书-第1章-绪论

 

本书的使用:

[来源于周志华老师的讲解]

第1章-绪论

机算学习理论

概率近似正确 模型:PAC (Probably Approximate Correct)

公式:P ( | f ( x ) - y | \leq \epsilon ) \geq 1 - \delta

其中 f 表示模型,y表示真相,x为样本

公式分析

其中| f ( x ) - y | \leq \epsilon用于计算模型的误差,判断模型的优劣

由于模型基于不同的算法和数据是不唯一的

故用 P ( ...... ) \geq 1 - \delta表示取得该模型的概率

故当 \delta=0,\epsilon=0时,即表示每次都取到最优解的模型

这时就出现了P=NP的问题

只要我们相信P≠NP,那么就不可能每次都取到最优模型

P=NP问题是计算机科学中的一个著名未解之谜,它询问的是两个问题类别——P类问题和NP类问题——是否相等。P类问题是指那些可以被快速解决的计算问题,即存在一个多项式时间算法来解决这些问题。NP类问题则是指那些虽然可能很难快速解决,但如果给出一个解决方案,我们可以快速验证这个解决方案是否正确的问题。

简单来说,P=NP问题问的是:所有可以快速验证答案的问题,是否都可以快速解决?

术语名词

1.示例 = 特征向量,样本

  • 名词解释:即对某个事件或者对象的 全局 描述

  • 构成元素:多组(特征:特征值)

  • 样本 要根据上下文来判断含义

2.特征 = 属性

  • 名词解释:即对某个事件或对象的一个 具体 特征的描述

3.样本空间 = 属性空间 = 输入空间

  • 名词解释:即特征张成的空间,空间中每个点对应一个特征向量即样本

4.数据集,训练集,测试集

  • 数据集=训练集+测试集(一般二八分,训练集更多)

数据集一般这样表示:

D =\left\{x_{ 1 },x_{2},\ldots,x_{ m }\right\}

由m个样本X构成,每个样本有相同的d个特征,即样本的维数为d

5.样例,标记,标记空间

  • 样例=样本+标记

标记:即想预测的结果的 实际信息,比如想预测瓜的好坏,实际样本中的信息为"好瓜"/"坏瓜",

一般这样表示:( x _ { i } , y _ { i } )

标记空间 or 输出空间:所有标记的集合

6.假设空间,版本空间

假设:学得模型关于数据的潜在规律
​
真实or真相:潜在规律本身
假设空间:所有假设构成的集合
​
版本空间:与训练集一致的假设构成的集合,由一个或多个假设空间的子集构成

......

基本假设

我们知道训练出的模型是为了对未知数据进行结果预测

但是为什么模型可以对未知数据进行预测呢?

这里我们引出了机器学习的基本假设。

1.未知分布D

通常假设样本空间中全体样本服从一个未知“分布” D

此处的“分布”指的是概率论中的概率分布

我们假设数据(包括 源数据集 和 未知数据)背后满足某种规律,

即数据的采样来自一个未知的、潜在的 分布D

2.独立同分布(i.i.d)

我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(简称i.i.d)

或者说 所有样本都是独立同分布的

一般而言,训练样本越多,我们得到的关于D的信息也越多

3.一些思考

在现实生活中,大多数样本之间不是独立同分布的,而是相互影响的。

比如说:在淘宝上 买衣服的人 和 买裤子的人,它们之间可能来自不同的分布,可能买衣服的人推荐买裤子的人来淘宝购物。

所以现在在机器学习的前沿领域,

如何突破独立同分布的限制 是一个重大课题

归纳偏好

归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设

对假设空间 筛选 后所得到的 版本空间中 可能有多个假设 这些假设都能够匹配训练集中的训练样本

而如何对版本空间中的假设进行选择呢?🤔

这里引入一个原则or方法论:

奥卡姆剃刀

若非必要勿增实体

选取多个假设中最简单的。

但是其实感觉没啥用,因为”简单“的定义难以量化。

一个“随机乱猜”的算法有可能优于精心选择的算法

“没有免费的午餐”(NFL)定理:

任意算法的“训练集外误差”相等,即不同算法的误差期望相同,无绝对意义上的更优算法。

所以 不能摆脱具体问题 谈论算法的优劣

实际上:还是看测试集再模型上的效果,以及结合特定领域的需求对模型进行选择

机器学习分类

1.监督学习-有导师学习

样本有标记

1.1 分类问题-预测 离散值

  • 二分类-正类/负类(反类)

    一般取值0/1,文本可通过 特征工程 转换为数值型变量

    一般假设正类和负类是可交换的

  • 多分类 涉及 多类别 的预测输出

    可以转换成二分类问题

1.2 回归问题-预测 连续值

预测结果 ∈ R

2.非监督学习-无导师学习

样本无标记

2.1 聚类算法

  • 离散型变量的分类、分组别

  • 连续型变量的统计个数,进行密度估计

    了解数据内在规律

......

机器学习的发展

  • 符号主义:源于数学逻辑,产生明确的概念表示

    符号主义认为人工智能源于数理逻辑后来又发展了 启发式算法>专家系统>知识工程理论与技术

    主要方向:决策树 和 基于逻辑的学习

    决策树->模拟人类对概念的判定树形过程
    ​
    基于逻辑的学习-->典型代表:归纳逻辑程序设计(ILP)
  • 连接主义:基于神经网络

    算法复杂度高,假设空间大,且参数设置缺乏理论指导

    经典代表:BP反向传播算法

  • 统计学习:支持向量机(SVM),核方法

    与连接主义关系密切

  • 深度学习:早期连接主义的衍生,基于神经网络,现阶段很流行

  • 17
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值