【机器学习第一章——绪论】

1.绪论

1.1 机器学习的定义

​ 利用经验改善系统自身的性能

在这里插入图片描述

​ 随着该领域的发展,目前主要研究智能数据分析的理论和方法,并已成为智能数据分析技术的源泉之一。

1.2 典型的机器学习过程

在这里插入图片描述

1.3 机器学习理论

最重要的理论模型:
P A C ( 概率近似正确 ) PAC(概率近似正确) PAC(概率近似正确)
假设x为数据(样本),用这个数据放到模型中判断出来的结果为f(x),真实结果为y
∣ f ( x ) − y ∣ ≤ ξ , 也就是希望两者的误差小于一个很小的值 |f(x)-y|\leq \xi,也就是希望两者的误差小于一个很小的值 f(x)yξ,也就是希望两者的误差小于一个很小的值
但是f(x)并不是每次都会很准确的判断,所以希望的是
P ( ∣ f ( x ) − y ∣ ≤ ξ ) ≥ 1 − δ 每次都以很高的概率得到这个 f ( x ) 假如 δ = 0 ,说明每次使用这个模型得到结果跟真的一样 P(|f(x)-y|\leq \xi)\geq1-\delta\\ 每次都以很高的概率得到这个f(x)\\ 假如\delta=0,说明每次使用这个模型得到结果跟真的一样 P(f(x)yξ)1δ每次都以很高的概率得到这个f(x)假如δ=0,说明每次使用这个模型得到结果跟真的一样

1.4 基本术语

  • 数据集:全部数据的集合
  • 训练与测试:抽取一部分数据对模型进行训练,训练达到一定量时,用测试集对模型进行检验
  • 示例与样例:示例是不包含输出的,样例则是输入和输出的统称
  • 样本:表格中的一条数据可以称为样本,一整张表格也能称为样本,需要具体问题具体分析
  • 属性(特征)与属性值:“色泽”、“根蒂”、“敲声”为属性,属性上的取值称为属性值

  • 属性空间、样本空间与输入空间:把属性作为坐标轴,可以绘制出多维空间,每个示例都能在空间中找到属于自己的点
  • 特征向量:每个点都对应一个坐标向量。
  • 标记空间(输出空间):输出的结果构成的空间,比如西瓜是否是好瓜,输出的结果只有两种(是或否),那就是一个二维空间,所有输出都分布在两个坐标轴上。

  • 假设和真相:通过数据的不断输入,模型学到了关于结果可能的规律,如果这个规律是对的,那就是真相。

    • 例如x为数据(样本),用这个数据放到模型中判断出来的结果为f(x),f(x)就是假设的结果,y则是真相
  • 学习器:算法在给定数据和参数空间上的实例化

  • 分类和回归:如果我们预测的是离散值,则称为分类;如果是预测的是连续值,则称为回归

  • 二分类和多分类:二分类是最基本的问题,所有多分类问题都可以把它分解成若干个二分类问题

  • 正类和反类:二分类中就涉及到两种样本,通常假设这两类是可交换的,可交换意味着这两类满足的分布和它的很多性质差不多,比如说数据集中,两类的比例是差不多

  • 监督学习和无监督学习:监督学习中样例是有结果部分,是用来做预测任务;而无监督学习的样例是没有结果部分,那么无监督学习就不是用来预测数据的结果,比如说就不能判断西瓜的好坏程度,那么这种数据能做的就是可以把西瓜分成很多堆(根据颜色、产地或者大小),这就是聚类。无监督学习还可以用来做密度估计,比如说判断西瓜产地的分布。

  • 未见样本:机器学习处理的是未来的新数据,这里就有一个基本的假设,我们拿到的所有数据都来自一个潜在的分布,实际上是假定了数据背后有一个规律,我们看到的数据都是从这个规律里面抽取出来的,而这个分布并不知道,称为未知分布

  • 独立同分布:所有数据都是从这个未知分布中抽取出来的,这些数据称为独立同分布数据,因为只有认为每个样本都是独立同分布取出来的,才可以把它看成是一个独立随机事件,那么才能用独立随机事件出现的频率去逼近概率

  • 泛化和特化:学到的模型处理新数据的能力,处理新数据的能力越强,泛化能力就越强,相当于从特殊到一般;而特化则是从一般到特殊。泛化则是指
    ∣ f ( x ) − y ∣ ≤ ξ 中 , ξ 能有多小 |f(x)-y|\leq \xi中,\xi能有多小 f(x)yξ,ξ能有多小
    比如
    ∣ f ( x ) − y ∣ 的误差是大于 0.5 |f(x)-y|的误差是大于0.5 f(x)y的误差是大于0.5
    那么这个概率跟随机猜测的概率是一样的,这就说明根本没必要用机器学习是实现。

1.5归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好

我们对西瓜进行选择的时候,“根蒂蜷缩,敲声沉闷”可以认为是一个好瓜,单单“根蒂蜷缩”也可以认为是个好瓜,这就是每个人判断的偏好。

比如下图中的点对应的是样本点,那么同时满足这几个样本点的曲线有无数条,现取以下两条,那么就有一个问题,哪条曲线更好呢?每个人答案肯定都不唯一,所以学习算法也有自己的偏好,有人认为条件越简单,模型会越好,有人认为条件越苛刻,模型会越好。

其中“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”,但奥卡姆剃刀并非唯一可行的原则,对于选“最简单”这件事来说,其实并不简单,每个人有自己对于简单的判断,所以需借助其他机制才能解决。

1.6 NFL原理

假设曲线A运用的学习算法是
ξ a \xi_a ξa
曲线B运用的学习算法是
ξ b \xi_b ξb
白点是模型得出后,用来测试的样本,这时候会呈现出如下图两种情况

  • (a)测试样本更符合曲线A,说明A运用的算法优于B
  • (b)测试样本更符合曲线B,说明B运用的算法优于A

在这里插入图片描述

N F L 定理 : 一个算法 ξ a 若在某些问题上比另一个算法 ξ b 好,必存在另一些问题 ξ b 比 ξ a 好 \color{red}{NFL定理:一个算法\xi_a若在某些问题上比另一个算法\xi_b好,必存在另一些问题\xi_b比\xi_a好} NFL定理:一个算法ξa若在某些问题上比另一个算法ξb好,必存在另一些问题ξbξa

  • 运用算法得到的误差期望

在这里插入图片描述

这里假设f均匀分布,则有一半的f对x的预测与h(x)不一致

在这里插入图片描述

会发现误差期望与学习算法无关,所以对于任意两个学习算法,有
∑ f E o t e ( ξ a ∣ X , f ) = ∑ f E o t e ( ξ b ∣ X , f ) \sum_fE_{ote}(\xi_a|X,f)=\sum_fE_{ote}(\xi_b|X,f) fEote(ξaX,f)=fEote(ξbX,f)

  • 定理的重要前提
    • 所有”问题“出现的机会相同、或所有问题同等重要
  • 但实际情况并非如此;我们通常只关注自己正在试图解决的问题
  • 脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义

具体问题,具体分析! \color{red}{具体问题,具体分析!} 具体问题,具体分析!

最优方案往往来自:按需设计、度身定制 \color{red}{最优方案往往来自:按需设计、度身定制} 最优方案往往来自:按需设计、度身定制

  • 29
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值