转自: https://www.zhenxiangsimple.com/2019/04/09/tech-ml-jwdlxx/
k临近学习
其原理是,对于给定的待测试样本,基于某种距离找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的属性来进行计算,使用k个邻居的“均值”作为待测试样本的最终分类值。当前分类方法受距离计算原理影响,可能不同的距离会得到不同的分类结果;也收到k的取值影响,可能也会由于k的范围不同得到不同的分类区间。
低维嵌入
当样本属性有较高维度时,其样本之间距离的计算量会非常大,为了尽可能减少计算量可以使用降维的方法,即将高维的原始样本通过数学变换得到一个低维的空间,同时尽可能保持原来样本之间的关系。可以简单理解成,将高维空间的数据映射或者变换到低维空间,一方面因为部分维度即可体现当前样本的关键分类属性,另一方面维度的变换后更便捷的查看分类信息,常用的有线性变换。
X ∗ = W T X X^* = W^TX X∗=WTX
主成分分析
常规数学上的主成分分析是对数据的维度进行特征提取,仅获取对样本数据影响较大的几个主要的维度,忽略其他的维度信息。当前小节提到的主成分跟常规的思路一样,做法上可以理解为将所有样本的维度投影到一个超平面上,使得投影结果之间的间距尽可能大,即可以区分原来的样本;同时各样本到超平面的距离尽可能近。
核化线性降维
常规的降维方法是使用线性降维,但很多现实的任务中线性变换不太容易找到,或者丢失的数据信息太多,所以也引入非线性降维,一种常用的方法是,基于核技巧对线性降维方法进行核化。
流形学习
是指那些在局部具有欧氏空间性质,可以使用欧氏距离进行距离计算的样本属性空间,借鉴了拓扑流形概念的降维方法。常用方法有等度量映射和局部线性嵌入,前者是使用近使用邻居节点作为计算节点来计算,并选择所有路径中最短的路径作为两个节点之间的距离;后者也是使用邻居节点进行计算,但后者保留了初始节点之间的线性关系。
度量学习
度量学习的意思是直接以方便距离计算为目标的降维方式,而不是先完成降维之后再进行距离计算,毕竟降维的目标也是方便最终的空间比初始空间的计算性能更好。