《机器学习》西瓜书绪论学习笔记

一、本书特色

       周志华老师每章不超过25页篇幅努力涵盖机器学习这门学科的主要内容,可作为每个机器学习者基础理论入门的第一本书。按照周老师的建议,本书可读三遍。第一遍快速阅读,遇到卡点忽略掉。第二遍再读,可理解提纲挈领。第三遍再读,可将知识连接成串,形成科学。

二、几个观点

    1  机器学习内涵:是关于学习算法的设计、分析和应用的学问。

    2、机器学习前提:很高概率得到很好的结论,默认是独立同分布数据(如何突破独立同分布假设,是现在研究的一个前沿问题。)

    3、机器学习的学习重点:不是局限于给类算法原理的掌握,而是要掌握算法思想,并在现实世界的无限问题中,运用算法思想去按需设计,量身定做。

    3、计算学习理论:computational learning theory(leslie valiant, 2010图灵奖),书中提出了最重要模型PAC:

        不要求学习器输出零错误率的假设,只要求错误率被限制在某常数ε范围内,ε可为任意小。不要求学习器对所有任意抽取的数据都能成功预测,只要求其失败的概率被限定在某个常数μ的范围内,μ可取任意小。只要求学习器可能学习到一个近似正确的假设,故得到了“可能近似正确学习”或PAC学习。(参考博客:原文链接:https://blog.csdn.net/wishchin/article/details/53634396)

     之所以没有给出零错误差,是因为我们现实生活中很多问题无法在多项式时间内确定最优解。

   4、模型抉择中的归纳偏好:可以理解为是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。通常按照“奥卡姆剃刀”原则(若非必要,勿增实体)进行偏好选择。但这并非是唯一可行的原则。

    5、NFC(No Free Lunch Theorem)定理:该定理重要前提是:所有问题出现机会相同,或所有问题同等重要。脱离具体问题的界定,无法衡量什么学习算法会更好。

   7、学习机器学习算法要理解一个根本问题:这个算法是如何缓解overfitting?在什么情况下这种环节会失效。理解了这个,你对算法就算有比较清晰的把握了。

三、习题探讨

     习题1.1 : 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。

      解:

        (1)版本空间的理解:南瓜书中指出,且在不同的假设空间中都有可能学得能够拟合训练集的模型,我们将所有能够拟合训练集的模型构成的集合称为“版本空间”。

         (2)西瓜数据集   

编号

色泽

根蒂

敲声

好瓜

1

青绿

蜷缩

浊响

2

乌黑

稍蜷

沉闷

       (3)假想空间样本数:3*3*3+1=28。(每个特征2种加上任意状态1种,得到3种)

       (4)以是=1为正例。则有,版本空间由以下七个样本构成(任意状态用*表示):

            青绿+蜷缩+浊响;青绿+*+浊响;青绿+蜷缩+*;*+蜷缩+浊响;青绿+*+*;*+*+浊响;*+蜷缩+*

    习题1.2   与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。例如:好瓜←→((色泽=*)∧(根蒂=蜷缩)∧(敲声=*))∨((色泽=乌黑)∧(根蒂=*)∧(敲声=沉闷))会把“((色泽=青绿)∧(根蒂=蜷缩)∧(敲声=清脆))”以及“((色泽=乌黑)∧(根蒂=硬挺)∧(敲声=沉闷))”都分类为“好瓜”。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。

      解:四个样本给出的色泽2种,根蒂3种,敲声3种。考虑其他任意情况,假设空间样本个数为3*4*4+1=49种。即K 的最大值为49.

所以,每次从中选取K个来组成析合式,则有:\sum_{k=1}^{49} c\binom{k}{49}种可能的假设。

     习题1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。

     解:选择降低噪声权值项或者扩大假设范围。

   习题1.5 试述机器学习能在互联网搜索的哪些环节起什么作用

     解:通过讯飞星火认知大模型给出一个参考解答:

         机器学习在互联网搜索中的作用有很多,以下是一些例子:

         1. 在向搜索引擎提交信息的阶段,能够从提交文本中进行信息提取,进行语义分析。
         2. 在搜索引擎进行信息匹配的阶段,能够提高问题与各个信息的匹配程度。
         3. 能够识别网络中的某些模式和异常,并在海量数据集中预测威胁,所有这些都是实时的。通过自动化此类分析,网络管理员可以轻松地检测到威胁并快速隔离情况,而所需的人力更少。

         一点个人补充:通过多种算法融合,在引擎智能算法生成中也能发挥作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值