《机器学习》西瓜书习题 第 1 章

欢迎到我的博客查看最新文章: https://blog.zplayer.cloud

习题

1.1

1.1 1.1 1.1 中若只包含编号为 1 1 1 4 4 4 的两个样例, 试给出相应的版本空间.

这应该不难理解吧,直接上表格.

编号色泽根蒂敲声好瓜
1 1 1青绿蜷缩浊响
4 4 4乌黑稍蜷沉闷

1.2

与使用单个合取式来进行假设表示相比, 使用 “析合范式” 将使得假设空间具有更强的表示能力. 例如 好 瓜 ↔ ( ( 色 泽 = ∗ ) ∧ ( 根 蒂 = 蜷 缩 ) ∧ ( 敲 声 = ∗ ) ) ∨ ( ( 色 泽 = 乌 黑 ) ∧ ( 根 蒂 = ∗ ) ∧ ( 敲 声 = 沉 闷 ) ) 好瓜 \leftrightarrow \big((色泽=*)\wedge(根蒂=蜷缩)\wedge(敲声=*)\big)\vee\big((色泽=乌黑)\wedge(根蒂=*)\wedge(敲声=沉闷)\big) ((=)(=)(=))((=)(=)(=))会把 “ ( 色 泽 = ∗ ) ∧ ( 根 蒂 = 蜷 缩 ) ∧ ( 敲 声 = ∗ ) (色泽=*)\wedge(根蒂=蜷缩)\wedge(敲声=*) (=)(=)(=)” 以及 “ ( 色 泽 = 乌 黑 ) ∧ ( 根 蒂 = ∗ ) ∧ ( 敲 声 = 沉 闷 ) (色泽=乌黑)\wedge(根蒂=*)\wedge(敲声=沉闷) (=)(=)(=)” 都分类为 “好瓜” . 若使用最多包含 k k k 个合取式的析合范式来表达 1.1 1.1 1.1 西瓜分类问题的假设空间, 试估算共有多少种可能的假设.

一共有 3 3 3 个特征, 第一个特征有 3 3 3 种取值(算上 ∗ * ), 第二, 三个都是 4 4 4 种取值.
  每个合取式我们分为三项:色泽, 根蒂, 敲声.这里要注意某个项其实是可以同时选择两种取值的, 比如色泽这一项可以是 ( ( 色 泽 = 青 绿 ) ∧ ( 色 泽 = 乌 黑 ) ) \big((色泽=青绿)\wedge(色泽=乌黑)\big) ((=绿)(=)) 而不是只能有一个取值.
  那么第一项只可能选择一个或两个取值, 取值是一个时有 3 3 3 种可能, 取值为两种时只有 1 1 1 种可能(即除了 ∗ * 外的另两种一起取到), 其他项以此类推, 那么就有 4 × 7 × 7 = 196 4\times7\times7=196 4×7×7=196 种合取式, 因此 k m a x = 196 k_{ma\boldsymbol{x}}=196 kmax=196.
  所以可能的假设总数为 ∑ i = 1 k m a x C k m a x i \sum^{k_{ma\boldsymbol{x}}}_{i=1}C_{k_{ma\boldsymbol{x}}}^i i=1kmaxCkmaxi , 即任意取 1 ∼ k m a x 1\sim k_{ma\boldsymbol{x}} 1kmax个合取式然后组合成的析合范式的数量.
  当然我们这里不考虑冗余 (因为我懒) .

1.3

若数据包含噪声, 则假设空间中有可能不存在与所有训练样本都一致的假设. 在此情形下, 试设计一种归纳偏好用于假设选择.

当然是奥卡姆剃刀啦, “如无必要, 勿增实体”, 大概体现了一种哲学思想吧.

1.4*

本章 1.4 1.4 1.4 节在论述 “没有免费的午餐” 定理时, 默认使用了 “分类错误率” 作为性能度量来对分类器进行评估. 若换用其他性能度量 ℓ \ell ,则将式 ( 1.1 ) (1.1) (1.1)改为 E o t e ( L a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) ℓ ( h ( x ) , f ( x ) ) P ( h ∣ X , L a ) E_{ote}(\mathfrak{L}_a\mid X,f)=\sum_h\sum_{\boldsymbol{\boldsymbol{x}}\in \mathcal{X}-X}P(\boldsymbol{\boldsymbol{x}})\ell(h(\boldsymbol{\boldsymbol{x}}),f(\boldsymbol{\boldsymbol{x}}))P(h\mid X,\mathfrak{L}_a) Eote(LaX,f)=hxXXP(x)(h(x),f(x))P(hX,La)试证明 “没有免费的午餐定理” 仍成立.

其实和原来的推导差不多. 对所有可能的 f f f 按均匀发布对误差求和, 有
∑ f E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ X − X P ( x ) ℓ ( h ( x ) , f ( x ) ) P ( h ∣ X , L a ) = ∑ x ∈ X − X P ( x ) ∑ h p ( h ∣ X , L ) ∑ f ℓ ( h ( x ) , f ( x ) ) = ∑ x ∈ X − X P ( x ) ∑ h p ( h ∣ X , L ) E ( ℓ ) = E ( ℓ ) ∑ x ∈ X − X P ( x ) ∑ h p ( h ∣ X , L ) = E ( ℓ ) ∑ x ∈ X − X P ( x ) ⋅ 1 = E ( ℓ ) ∑ x ∈ X − X P ( x ) \begin{aligned} \sum_fE_{ote}(\mathfrak{L}_a\mid X,f)&=\sum_f\sum_h\sum_{\boldsymbol{x}\in \mathcal{X}-X}P(\boldsymbol{x})\ell(h(\boldsymbol{x}),f(\boldsymbol{x}))P(h\mid X,\mathfrak{L}_a)\\ &=\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x})\sum_hp(h\mid X,\mathfrak{L})\sum_f\ell(h(\boldsymbol{x}),f(\boldsymbol{x}))\\ &=\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x})\sum_hp(h\mid X,\mathfrak{L})E(\ell)\\ &=E(\ell)\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x})\sum_hp(h\mid X,\mathfrak{L})\\ &=E(\ell)\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x})\cdot1\\ &=E(\ell)\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \end{aligned} fEote(LaX,f)=fhxXXP(x)(h(x),f(x))P(hX,La)=xXXP(x)hp(hX,L)f(h(x),f(x))=xXXP(x)hp(hX,L)E()=E()xXXP(x)hp(hX,L)=E()xXXP(x)1=E()xXXP(x)
   E ( ℓ ) E(\ell) E() ℓ \ell 的数学期望(就是 ℓ \ell 这个函数所有可能输出的均值去乘 2 ∣ X ∣ 2^{|\mathcal{X}|} 2X, 因为 f f f 是任意的. 反正是个常数.).
  最终表达式与学习算法 L \mathfrak{L} L 无关, 于是 ∑ f E a t e ( L ∣ X , f ) = ∑ f E a t e ( L ∣ X , f ) \sum_fE_{ate}(\mathfrak{L}\mid X,f)=\sum_fE_{ate}(\mathfrak{L}\mid X,f) fEate(LX,f)=fEate(LX,f)
  所以 “没有免费的午餐定理” 仍成立.

1.5

试述机器学习能在互联网搜索的哪些环节起什么作用.

这个就多了, 比如搜索引擎, 图片搜索, 智能化推荐, 还有很多很多. 当然你还可以用机器学习来破解反爬虫, 比如识别简单的验证码.

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值