前言:
{
我大概看了一下这一章的内容,有很多是我之前了解过的,学习这一章应该不会花费我太多时间,所以就连着上一期一起做笔记了。
线性代数警告!
}
正文:
{
k近邻学习:
{
书中描述的比较简单,这种方法大致意思就是:无标签样本标签由周围最近的k个有标签样本的标签决定(哪个标签最多就是哪个标签)。
很明显,k近邻学习甚至没有学习过程,因此被作为“懒惰学习”的著名代表。不过确实比较常用,因为很多情况下,特征相近的样本应该具有相同的标签,比如人的头发长度(特征)和性别(标签)。
值得注意的是,k近邻学习的泛化错误率不大于贝叶斯最优分类器的两倍。
}
降维:
{
现在的数据维度都很多(比如图像,每个像素就是一个维度),这样会导致性能障碍,这种维度问题被称为“维数灾难”。这章大部分都是在说降维。
低维嵌入:
{
这是一种数学降维方法。我们的目的是在保证样本间距离不变的情况下压缩特征维度。作者给出了多维缩放,其具体做法是:1,设所有样本X在目标空间的投影为Z,并且令B=为Z的内积矩阵;2,对B进行特征值分解
;3,通过得到的特征值矩阵
中特征值的大小选择一部分较大特征值和其对应的特征向量,由此组成新特征值矩阵
和特征向量矩阵
,并且通过
算出Z。
另外,这里提到了线性降维方法,即Z=,其得到的新属性是原属性的线性组合。
}
主成分分析:
{
说实话这种方式我见的最多。
我们的目的是要求上面的矩阵中的向量w,经过书上的一段公式推导(具体之后再看,先快速过一遍整书)得式(10.17)。