机器学习之K-近邻算法

最新推荐文章于 2022-10-31 22:25:48 发布

Zhang Hongbo2019

最新推荐文章于 2022-10-31 22:25:48 发布

阅读量213

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_40238600/article/details/90115319

版权

本文详细介绍了机器学习中的K-近邻算法，包括其基本原理、距离度量方法以及在约会网站和手写数字识别中的应用。通过Python代码示例，解释了数据收集、处理和K-近邻算法的实现过程，同时指出了算法的存储和计算成本问题。

摘要由CSDN通过智能技术生成

之前一直在手推李航的《统计学习方法》，掌握机器学习所用到的统计学方法。这里，结合《机器学习实战》把机器学习所涉及到的算法用Python实现

文章目录

一、什么是机器学习

举个栗子：比如一个女孩要找对象，而媒婆手里有很多年轻的小伙子，那如何给女孩推荐心仪的男孩子呢？根据当今社会正常的审美观，提取以下三个特征：身高：高或矮，颜值：高或低，性格：老实或幽默，然后我们参考经验数据再找出受欢迎和不受欢迎的组合。于是，媒婆就参考这个结果，即模型，对手里的男生进行甄别，然后向女孩推荐可靠的人选。结果，女孩很满意，媒婆得到了一大笔介绍费。

[Mitchel,1997]给出了一个形象化的定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

更通俗来讲，机器学习是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”往往通过数据的形式存在，因而，机器学习所研究的主要内容，是关于在计算机上从“数据”中产生模型的算法，即“学习算法”。有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型。在面对新情况时，模型会给我们提供相应的判断** @周志航的《机器学习》**
总结一下，机器学习就是利用经验不断的进行自我学习，不断的进行迭代优化，以改善系统自身的性能的一门学科。

二、K-近邻算法原理

基本原理：在分类问题中，存在一个样本数据集合，即训练样本集，并且每个样本集中的每个数据都有标签。输入没有标签的测试数据后，基于某种距离度量，找出与测试数据最近的K个数据，通常K是不大于20的整数。最后，选择K个个数据中出现次数最多的分类，将其作为新数据的分类。
距离度量方法，一般的，二维的欧式距离：
$d=\sqrt{ {(x_{0}-x_{1})}^{2}+(y_{0}-y_{1})^{2}}$