周志华西瓜书《机器学习》习题提示——第15章

人工干智能

已于 2023-07-24 16:20:04 修改

阅读量149

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习人工智能

于 2023-07-24 14:50:26 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/131896261

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 24 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

习题提示

15.1：
（1）为简化，对数据集样本的可取否定形式的属性进行“二值化”处理，如，“纹理”属性，其取值有“清晰”、“稍糊”和“模糊”三值，其中，“清晰”占比最高，取：
$f:(\text{纹理=清晰})$
而将“(纹理=稍糊)、(纹理=模糊)”都归入到如下否定形式中：
$\lnot f:\lnot (\text{纹理=清晰})$

（2）再自顶向下生成命题规则集，方法参见【西瓜书图15.1】示例。

15.2：
（1）“自底向上”是指从“特殊”到“一般”（泛化），极端情况下，训练样本较少时，将每个样本都视为一条规则，得到一个规则集（即初始化），再对该规则集进行“整合”，化简成条目少的规则集。

（2）引入变量（编号）间的关系【西瓜书表15.1】所示，则可用ILP方法。

15.3：
我们已经描述了RIPPER的来龙去脉，参见15.5 剪枝优化(预剪枝（阻止生长）和后剪枝（“由长变短”）)，依【西瓜书图15.2】RIPPER算法编程。

15.4：
基于序贯覆盖算法，在生成时或在“剪枝”时，需要进行评估，而评估涉及到属性值的占比，当属性值有缺省时，利用“不缺省”的子集中的点比作为“缺省”子集中的占比的近似值，从而进行相关的评估，参见【西瓜书p.86】。

15.5：
结合上述15.1题及15.3题的相关要点进行处理即可。

15.6：
可以将“更坏 $(X, Y)$ ”（ $X$ 比 $Y$ 坏）变为“更好 $(Y, X)$ ”（ $Y$ 比 $X$ 好），从而转变为可使用【西瓜书中例子】的思路。

15.7：
可以从集合论的观点来定义LGG：
设
$\begin{align*} \begin{cases} \boldsymbol{r}_1\subseteq R_k\\ \boldsymbol{r}_2\subseteq R_k\\ \end{cases} \end{align*}$
则 $\boldsymbol{r}_1$ 的 $\boldsymbol{r}_2$ 的LGG为：
$LGG=\mathop{\cap }\limits_kR_k$
显然，对 $\forall$ 有：
$R_r\supseteq LGG$
若有 $\boldsymbol{r}'$ 能特化为 $\boldsymbol{r}_1,\boldsymbol{r}_2$ ，则：
$\begin{align*} \begin{cases} \boldsymbol{r}_1\subseteq \boldsymbol{r}'\\ \boldsymbol{r}_2\subseteq \boldsymbol{r}'\\ \end{cases} \end{align*}$
这说明 $\boldsymbol{r}'$ 为上述某个 $R_k$ （设为 $\boldsymbol{r}'=R_t$ ），则有：
$LGG=\boldsymbol{r}'\cap\mathop{\cap }\limits_{k\neq t}R_k$ ，即：
$\begin{align} LGG\subseteq\boldsymbol{r}' \tag{1} \end{align}$
若 $\boldsymbol{r}'$ 又能泛化成为 $\boldsymbol{r}_1,\boldsymbol{r}_2$ 的LGG，则：
$\begin{align} \boldsymbol{r}'\subset LGG \tag{2} \end{align}$
式(1)与(2)矛盾，故得证。