读周志华《机器学习》第一章有感(白话总结)

目录

第一章绪论

1、引言

2.基本术语 

 1).解释了y=f(x)的对应机器学习关系以及专业名词

 2).进一步深化

3).这一小节的结论概念

3.假设空间

4.归纳偏好


   虽然这篇博客表面写的乱七八糟的,但是认真要看内容。我也是不会到会的过程,争取每个点都弄懂,这才叫学习。

第一章绪论

1、引言

很简单,主要掌握两个问题。

在平时生活着我们是怎么判断西瓜好坏,根据颜色、根蒂、拍拍听响。

1. 为什么色泽青绿、根蒂蜷缩、敲声浊响,就能判断出是正熟的好瓜?

          因为我们吃过、看过很多西瓜,所以基于色泽、根蒂、敲声这几个特征我们就可以做出相当好的判断。类似的,我们从以往的学习经验知道,下足了工夫、弄清了概念、做好了作业,自然会取得好成绩.可以看出,我们能做出有效的预判,是因为我们已经积累了许多的经验,而通过对经验的利用,就能对新情况做出有效的决策。

            在机器学习中,我们把色泽青绿、根蒂蜷缩、敲声浊响因素看成 x 自变量,在 y= f(x)中,y因变量就是作为一个结果,就是西瓜好不好的结果。我们机器学习就是根据已知的量,去找出这个f (x)。

2.上面对经验的利用是靠我们人类自身完成的.计算机能帮忙吗?

        机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能.在计算机系统中,“经验”通常以“数据”形式存在。因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm),有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜)。如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。

2.基本术语 

         1).解释了y=f(x)的对应机器学习关系以及专业名词

            在机器学习中,我们就是在x到y的映射,怎么学习?从x自变量与y因变量中学习,学习到 f()把x,y组成的集合叫做数据集。这里比较抽象,比如说数据集中有10个西瓜,每一个瓜记录它的

色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=

硬挺;敲声=清脆),………,根据这些记录下是好瓜还是坏瓜。对这个几个瓜进行学习,把经验

给总结出来,这就是一个学习得出模型。这里说的10个瓜组成的集合就是数据集。

        每一个记录的对象(每一个西瓜记录)称为 “实例”

        色泽、根蒂、敲声 称为“属性”或“特征”。   (色泽:属性==青绿:属性值)

        例如“青绿”“乌黑”。称为“属性值”

         属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”

         有三个属性,就是三维的属性空间,有四个属性,那就是四维的属性空间。。。。。

   因为我们要把这些因素,放在计算机中运行,所以就建立了数学思想。以下进行描述详解:

      针对X自变量的定义:

          从数据学得模型的过程称为“学习”或者“训练”

          训练过程中使用的数据称为“训练数据”

          其中每一个训练样本称为“训练样本”

          训练样本组成的的集合称为“训练集”

    针对Y因变量的定义:

             如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型,仅有前面的示例数据显然是不够的.要建立这样的关于“预测”(prediction)的模型,我们需获得训练样本的“结果”信息,例如“((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)”。

          这里关于示例结果的信息,例如“好瓜”,称为“标记”(label)。

          拥有了标记信息的示例,则称为“样例”(example)

      

 2).进一步深化

             若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”(classification);若欲预测的是连续值,

           例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”(regression)

          对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class);

          涉及多个类别时,则称为“多分类”(multi-class classification)任务

   什么叫回归?

           简单的说,我拿到了一些数据点,得到了一定的规律,新来一个x变量知道y因变量。如下图

  我们上面学习到模型了,接下来进行测试:

         另一种情况,根据西瓜为例,瓜农已经给我们分好了,好瓜与坏瓜,但是还有很多个不好分,而且在没有标签的去情况下。引入另一个概念:聚类(完全根据 x 进行分类)。

             这里就产生一种区别:分类与聚类。

       分类与聚类都是一种把数据集进行分类,分类是瓜农根据经验分好了的,好瓜与坏瓜。有x,y值。而聚类是不知道y值,只跟据一些属性x值进行分类。(我已经明白了,不明白回去再看)

        根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表.

3).这一小节的结论概念

         需注意的是,机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力,称为“泛化”(generalization)能力。(好的模型具有强泛化能力,就像我们平时做过的题,遇到类似的也会,举一反三地能力)

       每个样本都是独立地从这个分布上采样获得的,称为独立同分布。(这里就好比模型是西瓜,你来一个橘子肯定不适合)

3.假设空间

             归纳(induction)与演绎(deduction)是科学推理的两大基本手段.前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。

              例如,在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;

              而“从样例中学习”显然是一个归纳的过程,因此亦称“归纳学习”(inductive learning).

         我们把这个过程看作是一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的瓜判断正确的假设.假设的表示一旦确定,假设空间及其规模大小就确定了。

          介绍一下这个4*3*3+1=37, 这里就是假设空间,发生地可能性都在这里,

色泽是3中颜色+随意=4,根蒂2种+随意=3,敲声2种+随意=3,不存在好瓜地定于 空集1。

4.归纳偏好:

               

     简单的说,算法更加偏向于那一块属性,决定是好坏瓜。(我自己比较偏好敲声)

     我们这种偏好不能够准确,那么,有没有一般性的原则来引导算法确定“正确的”偏好那?

 答案是:引进了一个“奥卡姆剃刀”,奥卡姆剃刀是一种常用的、自然科学研究中最基本的原则,即  “若有多个假设与观察一致,则选最简单的那个”果采用这个原则,并且假设我们认为“更平滑”意味着“更简单”。

      事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设,在具体的显示问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。我们选择哪一种归纳偏好,就会产生对应的模型,产生一个学习算法。 由此来看就会产生好多的算法,我也不知道哪一种算法好,哪一种算法的泛化能力强(学得模型适应于新样本的能力)以下对于算法进行简短的讨论:

 拆分公式:代表是样本空间-训练集=训练集之外的数据集,x代表数据集中的一个向量 ,x在(训练集之外的数据集)的概率之和。

是通过算法(也可以是其他的算法)得到的模型,是目标模型。

:代表算法基于训练数据产生假设 h 的概率。

对应每个假设h的概率之和。

:上面几项的乘积就是该算法在训练集之外的所有样本上的误差,或者是函数f 对在分布D下的数学期望。                  (开局第一个公式就上难度了,机器学习真难)

进一步推到了,各位看好。

                                         

 在原来的基础上加了个 ,然后再分再和。

        这一步着实不太好理解,下面进行解释:

 害怕还不懂,绝对值的花X 代表着  下面标注的向量点,总共的数量。

        那个,就是前面所说的二分类的问题,真与假,1或0的问题,    {0,1}。 所以f(x)下面图片就是,  其他的看上面解析。

另外的一部分:

 所有的概率分布相加,就是等于1。

那么肯定会有人会问,为啥不是1,因为不是全集,这个是训练集以外的数据。

 

到这里揭晓以下,书中所说不同的算法却是一样的期望性能 ,这就是没有免费的午餐(No Free Lunch Theorem,简称NFL):

      以上总结一句话:具体问题具体分析。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 什么是泛化能力?泛化能力和过拟合之间有什么关系? 泛化能力是指模型在新的、未见过的数据上的表现能力。模型的泛化能力与其对训练数据的拟合程度有关,通常来说,过拟合的模型泛化能力较差。 2. 什么是交叉验证?交叉验证的作用是什么? 交叉验证是一种通过将数据集分成若干个子集来进行模型评估的方法。具体地,将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。交叉验证的作用是提高模型评估的可靠性和泛化能力。 3. 留出法、k折交叉验证和留一法的区别是什么?它们各自适用于什么情况? 留出法是将数据集分成两部分,一部分作为训练集,另一部分作为测试集。留出法适用于数据集较大的情况。 k折交叉验证是将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。k折交叉验证适用于数据集较小的情况。 留一法是k折交叉验证的一种特殊情况,即将数据集分成n个子集,每个子集都作为测试集,其余子集作为训练集,重复n次。留一法适用于数据集较小且样本数较少的情况。 4. 为什么要对数据进行预处理?数据预处理的方法有哪些? 数据预处理可以提高模型的表现,并且可以减少过拟合的风险。数据预处理的方法包括:标准化、归一化、缺失值填充、特征选择、特征降维等。 5. 什么是特征选择?特征选择的方法有哪些? 特征选择是指从所有特征中选择出对模型预测结果有重要贡献的特征。特征选择的方法包括:过滤式方法、包裹式方法和嵌入式方法。其中,过滤式方法是基于特征间的关系进行特征选择,包裹式方法是基于模型的性能进行特征选择,嵌入式方法是将特征选择嵌入到模型训练中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值