南瓜书笔记 第一章 绪论

数据集:{西瓜一,西瓜二,西瓜三……}

样本/示例:西瓜一

属性/特征:色泽

       西瓜一={色泽一,敲声一,根蒂一}

       西瓜二={色泽二,敲声二,根蒂二}}

属性值/特征值:乌黑

样本空间/属性空间/输入空间:色泽、敲声、根蒂为三个坐标轴张成的空间,用来描述西瓜

特征向量:该空间的每个点对应一个坐标向量,这个坐标就是特征向量

样例:有被设定的预测结果即标记的样本

       (色泽=青绿,根蒂=绵软,敲声=浑浊;好瓜)

标记:好瓜

标记空间/输出空间:{好瓜,坏瓜}

分类:预测的是离散值,比如好瓜、坏瓜

回归:预测的是连续值,比如西瓜的甜度

二分类:分为正类和反类共两类

多分类:

训练数据:

测试数据:

聚类:本地西瓜、外地西瓜;浅色瓜、深色瓜。且这些概念事先并不知道

监督学习:有标记

       代表:分类、回归

无监督学习:无标记

       代表:聚类

泛化:从训练数据中得到模型,这个模型适用于测试数据的能力。从特殊到一般

独立同分布:用英文理解比较容易,independent and identically distributed,假设样本空间各样本均服从某个特定分布,所有样本都是独立地从这个分布上采样获得的

归纳:特殊到一般

演绎:一般到具体情况

广义的归纳学习:从样例中学习

狭义的归纳学习:从训练数据中学得概念,又叫概念学习,但是现实中的技术大多是黑箱

版本空间:所有能够拟合训练集的模型构成的集合是版本空间

假设空间:各个特征的所有可能的取值形成的空间

       模型学习过程可以看作是在所有可能性组成空间中进行搜索的过程,目标是找到与训练集匹配的可能性。

归纳偏好:模型对某个特征的可能性具有偏好,叫做归纳偏好

       数学中学的线性回归方程,就是让直线经过尽可能多的样本点(其实不是,但是为了类比),那么归纳也是让曲线经过所有训练数据点,这样的曲线有很多条。为了得到最终结果只有一条,模型就必定具有某种偏好,才能输出模型认为正确的唯一曲线。

       一般而言,如果有多种可能性与训练数据拟合,就选择最简单的一种,反映在几何上就是选择更平滑的曲线——奥卡姆剃刀原则。当然它并不是唯一可行的原则。不同的原则带来不同的结果。

       对于算法A,如果它在某些问题上比算法B表现好,那么必然存在另一些问题,在那里算法B表现更好。这个结论对任何算法均成立。换句话说,总误差与学习算法无关。

这个结论的前提是,所有问题出现的机会相同(所有问题等同重要),但实际生活中并不是这样,我们只关心某个特定问题的解决方案,并不关心这个解决方案在其他问题上的实用性。所以判断算法的优劣,必须要指定特定问题。

       这个很好理解,类比一下,就是每个人都有自己擅长的领域。有的人擅长打篮球,那不擅长打篮球的人很可能擅长下棋。对于所有潜在领域来说,没有人是一无是处,一事无成的。但是对于某个特定领域来说,比如数学,那就是有人学的更通透一些。

      

数据决定模型的上限,算法让模型无限逼近上限,逼近真相。

       数据量大,积累的经验越多,那么找到的规律/得到的模型就越有利于预测未来。

       找到一个好算法,比如一元线性回归or多项式回归,看哪个能更好地学习这个规律。

参考:

周志华,《机器学习》(西瓜书)

二次元的Datawhale,爱敲代码的异步社区,www.bilibli.com,BV1Mh411e7VU,【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
南瓜(《统计学习方法》)是一本机器学习领域的经典教材,被称为机器学习领域的“圣经”。这本由李航教授撰写,包含了机器学习的基本概念、方法和算法等内容。 南瓜主要分为三个部分。第一部分是关于机器学习基础的内容,包括统计学习方法的基本概念、模型评估和选择等内容。第二部分介绍了常用的机器学习算法,如线性模型、决策树、支持向量机等,以及集成学习和聚类方法。第三部分则深入探讨了机器学习中的优化方法、神经网络和深度学习等内容。 该以清晰的逻辑结构和严谨的数学推导,为读者提供了一个系统了解机器学习的方法。同时,该注重实践应用,给出了大量的示例和案例分析,帮助读者理解算法的实际应用场景。 南瓜因其全面而详细的内容,以及对数学推导和算法实现的深入讲解而受到广大学习者的喜爱。对于机器学习初学者来说,这本可以作为入门教材,帮助他们建立起对机器学习基础概念和方法的全面认识。对于已经具备一定机器学习基础的学习者来说,该是一个不可或缺的参考资料,可以帮助他们进一步深入理解和应用机器学习算法。 南瓜的电子版PDF在互联网上广为流传,读者可以通过下载或在线阅读的方式获取。通过阅读南瓜,我们可以更好地掌握机器学习的基本原理和实践技巧,为进一步深入研究和应用机器学习打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值