Scikit-Learn 学习笔记(1) — Nearest Neighbors 最近邻 综述
1 前言
最近在做机器学习的作业,要用到Scilit-Learn这个东西,由于我这个人功利性比较明显,让我看那文档着实不爽,因为看了就过了。。所以我又来写博客了,发挥我这学期看到什么就写什么的热情。
这个笔记我想做成的形式就是挑选的翻译+理解的形式,所以真的是笔记哦
2 综述
在scikit-learn当中,最近邻的相关代码在 sklearn.neighbors 这里面,提供了有监督和无监督的最近邻学习方法。在机器学习中,无监督的最近邻思想是很多其他算法的重要基础,尤其是流行学习(manifold learning 链接1),和谱聚类(Spectral Clustering 链接),而有监督的最近邻则主要有如下两个用途:对离散标签的归类,和对具有连续标签(取值)的回归。
最近邻的核心思想是,对于需要预测的点(空间上的),找到和他距离最近的几个点,并根据这几个点的类别来对新的点做预测。关于这些点的数量,可以是用户自定义,因此就有了KNN(K-nearest neighbor learning),或者是基于当前点的密度来确定(基于半径的最近邻 radius-based neighbor learning)。另一个重要的话题是如何衡量点与点之间的距离,通常上说呢,几乎任何的方式都是可行的,不过一般来说,欧几里得距离