机器学习(西瓜书)第十章笔记

Note:我们学习过程中第十章并不是重点,所以并没有做很详细的笔记

k近邻学习

k近邻学习是一种常用的监督学习方法

工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k 个“邻居”的信息来进行预测

通常,在分类任务中可使用“投票法” ,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用“平均法”,即将这k个样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。

“懒惰学习” 的著名代表,没有明显的学习过程,在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理;相应的,那些在训练阶段就对样本进行学习处理的方法,成为“急切学习”。

 

低维嵌入

高维空间给距离计算带来很大的麻烦

当维数很高时甚至连计算内积都不再容易

甚至样本变得稀疏

样本数据虽是高维的,但与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维“嵌入”

缓解维数灾难的一个重要途径就是降维,亦称“维数约简”,即通过某种数学变换将原始高维属性空间转变成一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变得更为容易。

 

主成分分析

是一种常用的降维方法

正交属性空间中的样本点,如何使用一个超平面对所有样本进行恰当的表达?

若存在这样的超平面,那么它大概应具有这样的性质:

最近重构性能:样本点到这个超平面的距离都足够近

最大可分性:样本点在这个超平面上的投影能尽可能分开

 

PCA可用于人脸识别中,称为“特征脸”

将得到的d’个特征值对应的特征向量还原为图像

 

习题答案

1.编程实现k邻近分类器,在西瓜数据集3.0α上比较其与决策树分类边界的异同。

k邻近分类器是在离该样本最近的k个样本集合中,选择分类最多的一个作为该样本的分类。

下面是k分别为1,3,5时的边界

其中蓝色是样本分类 o代表好瓜 x代表坏瓜

黄色表示分类器会将测试样本标记为好瓜,绿色则是坏瓜

从k=5时可以看出,分类器作出了错误的判断。 与单变量决策树只有水平和垂直边界不同,k邻近分类器可以有曲线边界。

4.在实践中,协方差阵XX^T的特征值分解常由中心化后的样本矩阵X的奇异值分解替代,试讲述原因。

假设样本阵X是k*m矩阵,其中m是样本数,k是维度。

使用协方差阵求特征值分解时,协方差阵与属性的维度成平方比,这需要占用大量的空间。当属性维度与样本数差距巨大时,这种不必要的开销更加明显。

对样本矩阵进行奇异值分解,很明显非0奇异值的个数m’,肯定不会大于样本数和属性维度较小的一个(一般情况k>>m),这样使得求出来的特征向量阵为k∗m′(m′≤m)k∗m′(m′≤m),显然当m<<km<<k时,m′km′k的开销会远远小于k2k2。

5.降维中涉及的投影矩阵通常要求是正交的,试述正交非正交投影矩阵用于降维的优缺点。

当特征向量两两正交时,任何两种属性都是相互独立的,其中一个的取值不会影响另一个。但是属性并非全部不相关,比如书上说的,西瓜的体积和重量,显然是正相关的。这时如果两个属性的特征向量不成交会有更好的效果。

7.试述核化线性降维与流型学习之间的联系与优缺点。

非线性核的线性降维与流型学习都属于非线性降维。

核化线性降维有线性降维的优点,比如KPCA与保留了最主要的特征,计算方法简单,使用非线性核可以实现非线性降维。缺点一个是核化后的缺点,复杂度与样本总数成正比,当样本很多时复杂度会很高;另外由于PCA使用的正交空间,如果属性相关性比较大,会出现不好的结果。

流型学习:流形在局部具有欧式空间的性质,能用欧氏距离来进行距离计算。它的优点就是把高维中不能直接计算的距离使用局部距离来累计表示。比如Isomap,它使用测地线距离来表示高维距离。缺点一是如果本的分布不均匀,导致设置的k近邻或e距离近邻中存在短路与断路的存在,不利于计算全局距离。二是并没有特别好的方法去计算新样本的低维坐标。

 

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值