西瓜书笔记1:绪论

"全书共16章,大体上可分为3个部分:

第1部分1~3章,机器学习基础知识;

第2部分4-10章,常用的机器学习方法;

第3部分包括第11-16章,进阶知识.

前3章之外的后续各章均相对独立,读者可根据自己的兴趣和时间情况选择使用."

目录

章1绪论

1.1引言

1.2基本术语

1.3 假设空间

1.4 归纳偏好

1.5 发展历程

习题


章1绪论

1.1引言

机器学习定义:通过计算的手段,利用经验改善系统自身的性能.

在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm).

1.2基本术语

假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响)

“属性”(attribute)或“特征”(feature): 例如“色泽”“根蒂”“敲声"

“属性空间"(attribute space)、"样本空间"(sample space)或“输入空间”: 属性张成的空间.例如我们把“色泽” “根蒂” “敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量

“特征向量"(feature vector): 一个示例xi.

(PS:特征向量让我想到线代中特征值与特征向量,Aα=λα,则α为特征向量)

示例:每个示例xi=(xi1; …; xid)是d维样本空间X中的一个向量,其中xij是xi在第j个属性上的取值

示例数据(training sample样本、instance)+标记(label结果信息)=样例example

(xi,yi)表示第i个样例,其中yi∈Y是示例xi的标记,

Y是所有标记的集合, 亦称“标记空间”(label space)或“输出空间”.

根据所预测值, 学习任务分为两大类

监督学习

分类classification: 预测离散值( 二分类\多分类 )

回归regression: 预测连续值

通过对训练集学习, 建立输入空间X, 到输出空间Y的映射f. ( 用f进行预测=测试testing )

无监督学习

聚类clustering: 自动形成簇cluster( 样本一般不需标记信息 )

机器学习的目标: 泛化能力( 模型适用于新样本 )

1.3 假设空间

假设空间=候选方案(function set)(如一组组参数决定的模型)

学习过程: 在假设空间中搜索与训练集匹配( fit )的假设

版本空间: 与训练集一致的假设集合

注意: 与训练集一致意味着必须包含正例, 不包含所有反例. (不包含反例也不包含正例的当然就不算了 )

1.4 归纳偏好

有多个与训练集一致的假设时, 进行选择.

没有免费午餐定理NFL

针对某一域的所有问题,所有算法的期望性能是相同的

说明了世界上没有"最好"的算法, 只有合适的算法.

NFL证明公式

两个算法a, b得到的假设h都能fit训练集X, 真实函数为f

全是符号单纯看南瓜书还是有点懵,找一点解释性的文章终于明白什么意思啦(ㄒoㄒ)

(https://blog.csdn.net/qq_39775472/article/details/110993738

 首先,我们是这样定义一个假设函数h对一个样本点x的预测误差的:预测值h(x)与真实值f(x)一致则误差为0,不一致则误差为1,即I(h(x)≠f(x))

        由于x是一个随机变量,那么这个误差值也是一个随机变量,取值为0或1,其在训练集之外的所有样本上的期望可以看作假设函数h在训练集之外的所有样本上预测的错误率,即:

在算法La的假设空间中可能会存在多个假设函数与训练集一致,最终产生哪一个是有概率的,令算法La在训练数据集X上产生某个假设h的概率为P(h|X, La),那么,我们接下来要做的是定义算法La产生的所有假设的误差,而不只是La产生的一个假设h的误差。

由于h是算法La以概率P(h|X, La)产生的,那么我们可以定义算法La的误差为所有可能的h的误差的期望(期望就是所有情况概率和),即

再解释下(1.2)式的推导:

首先,这里考虑的是二分类问题,而且假设真实目标函数f可以是任何输入空间X输出空间{0, 1}的映射,那么整个函数空间的大小就应该是2^|X|。

然后,这里假设在整个函数空间中所有可能的目标函数f是均匀分布的(即所有真实的问题是均匀出现的)。

在二分类问题中,对于一个样本点x,假设函数h(x)的预测值要么是0要么是1,不妨假设为0,那么由于f是均匀分布的,所有将x映射为0的真实函数f的数量和所有将x映射为1的真实函数f的数量应该是一样的,那么,在函数空间中就有一半数量的可能的f于假设函数h的预测不一致,于是就有:

等于

另外对P(x)的求和的x范围不包括训练集X,所以说它不等于1,小于1,只有当x的求和范围是整个样本空间时,对概率P(x)的求和才是1。)

值得一提的是,在这里我们假设真实的目标函数f为“任何能将样本映射到{0,1}的函数且服从均匀分布”,但是实际情形并非如此,通常我们只认为能高度拟合已有样本数据的函数才是真实目标函数.

1.5 发展历程

逻辑推理-> 知识工程( 专家系统 )-> 自己学习知识, 神经网络( 连接, 黑箱, 调参 ), 结构概念学习( 符号, 决策树 )->统计学习( 支持向量机 )->深度学习(连接+大数据)

习题

没有标准答案, 参考这个说得比较清楚:

https://zhuanlan.zhihu.com/p/34974292

1. 版本空间问题: 不包含反例也不包含正例的不算在版本空间里(可以通过对正例泛化来看)

2. 使用最多包涵k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间: 要注意冗余情况( 某个属性使用通配符, 就不能再析取特殊属性值了 )

这个帖子对这道题的假设空间的规模计算貌似有一点问题, 虽然数据集中的色泽只出现了绿, 黑两种, 但书中已假设所有属性都有三个属性值(绿黑白), 假设空间应该算上白色吧. 规模为4*4*4( +1 )

3. 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。

我第一反应是: 训练样本一致特征越多越好(一致性比例越高越好)

这个思路也不错: 通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。

4. 本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量Ⅱ(h,f)来对分类器进行评估。若换用其他性能度量l(h,f)证明定理依然成立

看到题目不知道度量函数l怎么用, 参考这篇:

https://blog.csdn.net/thither_shore/article/details/52324776

原本预测结果与真实值不同时, 直接取0, 这里是通过l取一个其他值, 二分类中预测错误的损失对于给定函数l依然一个常数(结论得证)

5. 机器学习在互联网搜索作用: 推荐,搜索结果排名,搜图等

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值