Chapter 6:Similarity-Based Methods

最新推荐文章于 2021-02-23 19:06:00 发布

「已注销」

最新推荐文章于 2021-02-23 19:06:00 发布

阅读量547

点赞数

本文链接：https://blog.csdn.net/qq_36686996/article/details/88054649

版权

本文深入探讨了KNN（K-最近邻）算法，从相似度度量如欧几里得距离和余弦相似度开始，介绍了Nearest Neighbor原则、VC维、数据压缩方法以及如何选择合适的K值。文章还讨论了KNN在回归问题中的应用，RBF（径向基函数）网络，包括高斯核和窗口函数，并触及了过拟合和学习RBF网络的方法。此外，提到了概率密度估计和GMMs（高斯混合模型）在数据建模中的应用。

摘要由CSDN通过智能技术生成

①Similarity Measure

相似度的衡量方法：
Euclidean Distance（欧几里得距离）：
Mahalanobi Distance（马氏距离）：，其中Q是一个半正定的协方差矩阵，是多维度数据之间的方差。马氏距离比高斯距离考虑的更全面，因为他把数据的维度和数据的大小都考虑了进来。中间的Q矩阵就是起到这个作用，
Cossim Similarity:这个是余弦距离，常用于在文本向量相似度的比较之中。
Jccard Coeffcient：这个比较方法常用于在集合的对比，也就是推荐系统的优良性度量里面。

②Nearest Neighbor

Two competing Principles:
①拟合数据并且得到较低的in-sample error
②in-sample error必须是可信的，可以作为out-of-sample的估计
规则：用最近邻的k个点的变量的类别来指定当前点的类别
Voronoi图：是由一组连续的两邻点直接的垂直平分线组成的连续多边形。
最近邻算法不需要训练过程，所以它是可以实现In-sample error为0的，因为in-sample error就是训练集里面产生的。

③VC Dismension

由于kNN算法理论上是可以拟合任何数据，所以它是可以shatter任何数据，所以它的VC维是无限的，这和凸边型是一样的。

④Feasible of Nearest

在KNN里面的label是一个固定的值，它的概率是百分之一百，我们假设他和logistic regression一样，label是由一定的概率组成。，当
再假设

因为f(x)是我们的最优分类器，所以上面的就是我们能够对一个点做到最好的的结果了。

上面就是最好情况，现在来看看普通情况：

这个时候x的类别是由离x最近的那个点决定的。所以：

当N足够大的时候，在一个有限的空间里面，和可以无限接近，那么，两边取期望：

这只是一种大概的证明方法，如果要更加细致一点：
首先由，回到上面的式子：
，两边取期望：

如果上面的不等式满足N是非常大的一个数，而且是平滑的而且是连续的，那么，所以后面那一项就可以去掉了。