机器学习之西瓜书-note1


『第一章 诸论』
『1.1 引言』
学习算法:机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

学习算法的作用
1.基于提供的经验数据产生模型;
2.面对新情况时,模型可提供相应的判断。

模型:泛指从数据中学得的结果。


『1.2 基本术语』
数据集:记录的集合
示例/样本/特征向量:每条记录或空间中的每个点
属性/特征:反映事件或对象在某方面的表现或性质的事项
属性值:属性上的取值
属性空间/样本空间/输入空间:属性张成的空间
维数:示例的属性描述个数
学习/训练:从数据中学的模型的过程
训练数据:训练过程中使用的数据
训练样本:训练过程中使用数据的每个样本
训练集:训练样本组成的集合
假设:学得模型对应了关于数据的某种潜在数据
真实/真相:这种潜在规律本身
学习器:学习算法在给定数据和参数空间上的实例化
标记:关于示例结果的信息
样例:拥有了标记信息的示例
标记空间/输出空间:所有标记的集合
这里写图片描述
测试:学得模型后,使用其进行预测的过程
测试样本:被预测的样本
聚类:将新联系中的样例分成若干组
:每组称为一个簇,这些自动形成的簇可能对应一些潜在的概念划分
这里写图片描述

机器学习的目标是使学得的模型能很好地适用于新样本,而不仅仅是在训练样本上工作得很好
泛化能力:学得模型适用于新样本的能力


『1.3 假设空间』
归纳与演绎是科学推理的两大基本手段;
这里写图片描述

归纳学习有狭义与广义之分;
广义的归纳学习大体相当于从样例中学习;
狭义的归纳学习要求从训练数据中学得概念。因此也称为概念学习/概念形成

概念学习中最基本的是布尔概念学习。也就是对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习。

学习过程可看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。

假设空间:机器学习中可能的函数构成的空间称为“假设空间”
版本空间:一个与训练集一致的“假设集合”

『假设空间规模问题』
1.如果某一属性值无论取什么值都合适,用通配符”*“来表示
2.概念根本就不存在,用ø来表示
书中西瓜的例子,有”色泽“”根蒂“”敲声“三种属性,每个属性又有“三种”可能值,但是事实上面临的假设空间大小规模为4*4*4+1=65。这是因为“无论取什么值都合适”也是一种属性值。也就是说,事实上,每种属性有四种取值,3+都合适。
4(色泽)*4(根蒂)*4(敲声)+1(好瓜概念不存在)=65


『1.4 归纳偏好』
归纳偏好/偏好:机器学习算法在学习过程中对某种类型假设的偏好

任何一个“正确”的模型的学习算法必须有某种偏好

“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个
奥卡姆剃刀并非唯一可行的原则,奥卡姆剃刀本身就存在不同的诠释

”没有免费的午餐“定理(NFL定理):总误差与算法无关
1.没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。
2.NFL定理最重要的寓意:脱离具体问题,空泛地谈论”什么学习算法更好“毫无意义,因为若考虑所有潜在的问题,则所有学习算法一样好。


『习题』
1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
:因为编号1和编号4的三个属性值均不相同。与训练集一致的假设集合为版本空间。
其取值则共有七种,其合取式为:

(色泽=青绿)∧(根蒂= ∗ )∧(敲声= ∗ )

(色泽= ∗ )∧(根蒂=蜷缩)∧(敲声= ∗ )

(色泽= ∗ )∧(根蒂= ∗ )∧(敲声=浊响)

(色泽=青绿)∧(根蒂=蜷缩)∧(敲声= ∗ )

(色泽=青绿)∧(根蒂= ∗ )∧(敲声=浊响)

(色泽= ∗ )∧(根蒂=蜷缩)∧(敲声=浊响)

(色泽=青绿)∧(根蒂=蜷缩)∧(敲声=浊响)

1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。例如:
好瓜←→((色泽=)∧(根蒂=蜷缩)∧(敲声=))∨((色泽=乌黑)∧(根蒂=*)∧(敲声=沉闷))
会把“((色泽=青绿)∧(根蒂=蜷缩)∧(敲声=清脆))”以及“((色泽=乌黑)∧(根蒂=硬挺)∧(敲声=沉闷))”都分类为“好瓜”。
若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。

:此表的色泽属性只有:1.青绿、2.乌黑 两种属性值,故其假设空间规模大小为: 3×4×4+1=49种。
k的最大值为49。
因此,可能的假设有249中可能的假设。

**1.3**1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。
:在训练过程中选取满足样本最多的假设

1.4 本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l,试证明没有免费的午餐”定理仍成立。
:还是考虑二分类的问题, NFL首先要保证真实目标函数​ 均匀分布,对于有​个样本的二分类问题,显然​共有​ 种情况。其中一半是与假设一致的,此时,​应该是个常数,隐含的条件就是(一个比较合理的充分条件)​ 。如果不满足,NFL不成立。

1.5试述机器学习能在互联网搜索的哪些环节起什么作用。

最常见的,消息推送,比如淘宝发送的某些感兴趣的商品。(商品推荐,物品推荐)
网站相关度排行,通过点击量,网页内容进行综合分析。
图片搜索,现在大部分是通过标签来搜索,不过基于像素的搜索总会有把。


更多请查看个人博客:https://beatjerome.github.io

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值