《西瓜书》笔记01：机器学习绪论

最新推荐文章于 2022-11-14 22:35:24 发布

鸟恋旧林XD

最新推荐文章于 2022-11-14 22:35:24 发布

阅读量778

点赞数

分类专栏：机器学习笔记文章标签：机器学习西瓜书周志华

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/niaolianjiulin/article/details/77247981

版权

机器学习笔记专栏收录该内容

36 篇文章 5 订阅

订阅专栏

1. 概述

“朝霞不出门，晚霞行千里”

日常生活中，我们积累了许多经验，通过对经验的利用，就能对新情况做出有效决策。

机器学习：致力于研究如何通过计算的手段，利用经验来改善系统自身性能。计算机系统中，经验以数据形式存在。

ML研究的主要内容：关于在计算机上从数据中产生模型的算法。有了学习算法，把经验数据提供给它，就能基于这些数据产生模型。面对新情况，模型会提供相应判断。

2. 基本术语

数据集，样本/示例，属性/特征，属性值/特征值

属性空间/特征空间/输入空间

特征向量：空间中的点，对应一个样本

学习/训练：从数据中学得模型的过程，执行某个学习算法

训练数据，训练样本，训练集

分类任务：预测的离散值

回归任务：预测的是连续值

二分类，多分类

学习任务分类：监督学习，无监督学习。根据训练数据是否拥有标记信息来区分。前者如分类、回归任务；后者如聚类任务。

泛化能力：学得的模型适用于新样本的能力。

独立同分布：通常假设样本空间中的全体样本服从一个未知分布，我们获得的每个样本都是独立地从这个分布中采样获得的。

3. 假设空间

机械学习，亦称死记硬背式学习，“记住”所有训练样本。

我们可将学习过程看作一个在所有假设组成的空间中，进行搜索的过程。搜索目标是找到与训练集匹配的假设，能够将训练集中的瓜判断争取的假设。

假设的表示一旦确定，假设空间及其规模确定。如假设空间由形如“（色泽=？）&& （根蒂=？）&&（敲声=？）”的可能取值所形成的假设组成。

这里写图片描述

对该假设空间进行搜索，不断删除与正例不一致的假设，或与反例一致的假设，最终得到与训练集一致的假设，即为学习结果。

现实中经常面临很大的假设空间。学习过程是在有限样本训练集进行的，因此，可能有多个假设与训练集一致，存在着一个与训练集一致的“假设集合”，称为“版本空间”。

样本集：
这里写图片描述

版本空间（3个假设）：
这里写图片描述

4. 归纳偏好

科学推理2大手段：归纳（induction）和演绎（deduction）。

归纳：从特殊到一般的泛化过程。演绎：从一般到特殊的特化过程。

从样例中学习，是一个归纳的过程，亦称归纳学习。

如上节，有三个假设，学习算法本身的偏好，会在生成模型时起到关键作用。例如算法喜欢尽可能特殊，即适应情况尽可能少的情况，则会选（色泽=*，根蒂=紧缩，敲声=浊响）；而算法若喜欢尽可能一般，即适应情况尽可能多的情况，并且由于某种原因更相信根蒂，则选择（色泽=*，根蒂=蜷缩，敲声=*）。

机器学习算法在学习过程中，对某种类型假设的偏好，称为“归纳偏好”。

这看起来和特征选择有点像，但不是一回事。特征选择是基于对训练样本的分析进行的。此处的例如对“根蒂”的信赖，并非基于特征选择，而可视为基于某种领域知识而产生的归纳偏好。

任何一个有效的ML算法，必有其归纳偏好。否则模型不确定。

学习算法的某种偏好，体现在其设计流程，优化目标等综合反映。如算法认为相似样本应用相似输出，则对应的学习算法可能偏好下图较平滑的曲线。

这里写图片描述

归纳偏好可看作是：学习算法自身在一个很庞大的假设空间中对假设选择时的启发式或价值观。即有自己的某种个性，或者癖好来做出一个选择。

一个一般性的原则，引导算法确定“正确性”偏好：奥卡姆剃刀原则。即若有多个假设与观察一致，则选最简单的那个。

但是这只是某一方面的准则。对于一个算法A，若在某些问题上比B好，则必然存在另一些问题，在那里B比A好。

P8的简单证明：算法A在训练集之外的所有样本上的误差，与算法无关。这就是说对于任意两个算法，其训练集外误差都是相同的。对于一个算法A，若在某些问题上比B好，则必然存在另一些问题，在那里B比A好。

这就是“没有免费的午餐”定理（NFL）。

那既然所有学习算法的期望性能和随即猜测差不多，ML的意义何在？

NFL定理的前提是：所有问题出现机会相同。但实际中不是这样，我们只关注某个具体应用任务，希望这个正在试图解决的问题，找到一个方案。至于在别的问题上如何，并不关心。对当前最好即可。

NFL定理意义在于：脱离具体问题，空泛谈论什么学习算法更好，是没有意义的。必须针对具体问题具体分析。

5. 发展历程

二十世纪五十年代开始。

二十世纪八十年代，从样例中学习的一大主流是符号主义学习，代表包括决策树等。

二十世纪九十年代中期之前，从样例中学习的另一大主流是基于神经网络的连接主义学习。BP算法1986年出现。

二十世纪九十年代中期，统计学习迅速占领舞台。代表有SVM。以统计学习理论为直接支撑的统计学习技术。

如今，连接主义学习卷土重来，掀起了以深度学习为名的热潮。模型复杂度虽高，但只要下功夫调参，性能往往会好。但缺乏严格的理论基础。

热起来有两个原因：

数据大。深度学习模型拥有大量参数，若样本少，容易过拟合。
计算能力强。数据储量和GPU大发展。

上世纪80年代走红，与当时的X86系列微处理器和内存条技术显著提高不无关系，历史在重演。

想起操作系统书的作者曾说过：计算机界很有趣，往往很多东西被淘汰了但若干年后又将焕发新生。

6. 应用现状

2012年，美国政府启动大数据研发计划，强调三大技术：

机器学习：提供数据分析能力
云计算：提供数据处理能力
众包：提供数据标注能力

数据挖掘，20世纪90年代出现。其两大支撑;

机器学习技术
数据库技术

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《西瓜书》笔记01：机器学习绪论

1. 概述“朝霞不出门，晚霞行千里”日常生活中，我们积累了许多经验，通过对经验的利用，就能对新情况做出有效决策。机器学习：致力于研究如何通过计算的手段，利用经验来改善系统自身性能。计算机系统中，经验以数据形式存在。ML研究的主要内容：关于在计算机上从数据中产生模型的算法。有了学习算法，把经验数据提供给它，就能基于这些数据产生模型。面对新情况，模型会提供相应判断。2. 基本术语数据集，样本/示例，属性
复制链接

扫一扫

专栏目录

鸟恋旧林XD CSDN认证博客专家 CSDN认证企业博客

码龄8年

142: 原创

6万+: 周排名

108万+: 总排名

64万+: 访问

: 等级

5469: 积分

384: 粉丝

322: 获赞

220: 评论

1021: 收藏

私信

关注

热门文章

分类专栏

最新评论

linux链接.a库时error adding symbols: file format not recognized
乐犬: 例如这里.a文件的信息，系统架构一栏中是ARM，这一栏为x86的时候就会报错。
linux链接.a库时error adding symbols: file format not recognized
乐犬: 是这样的，这里报ld链接.a库错：error addingg symbols file的错误，就可以使用readelf工具去查看目标.a文件，然后就会发现工程中的.a文件编译出来是x86类型而非arm类型，与工程中其他文件不一致，故链接失败。这个时候的解决方法就是将有问题的.a文件重新使用源码以arm的架构生成新的.a文件，然后再去链接整个工程 [code=plain] 文件：libnl-3.a(hashtable.o) ELF 头： Magic： 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 类别: ELF32 数据: 2 补码，小端序 (little endian) 版本: 1 (current) OS/ABI: UNIX - System V ABI 版本: 0 类型: REL (可重定位文件) 系统架构: ARM 版本: 0x1 入口点地址： 0x0 程序头起点： 0 (bytes into file) Start of section headers: 18168 (bytes into file) 标志： 0x5000000, Version5 EABI 本头的大小： 52 (字节) 程序头大小： 0 (字节) Number of program headers: 0 节头大小： 40 (字节) 节头数量： 24 字符串表索引节头： 23 [/code]
西电硕士论文 Latex 模板：填坑！
Marchosius: 大佬，文章怎么还要会员才能看了呀
西电硕士论文 Latex 模板：填坑！
魔芋蘸酱: 添加了楼主的代码，参考文献出现[?],请问怎么解决？如果方便，大佬可以分享一下你的latex文件吗？邮箱是2571679325@qq.com
浮点数和定点数的相互转换（浮点数量化为定点）
智辉粉: 谢谢解答

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。