机器学习之K-近邻算法

本文详细介绍了机器学习中的K-近邻算法,包括其基本原理、距离度量方法以及在约会网站和手写数字识别中的应用。通过Python代码示例,解释了数据收集、处理和K-近邻算法的实现过程,同时指出了算法的存储和计算成本问题。
摘要由CSDN通过智能技术生成

之前一直在手推李航的《统计学习方法》,掌握机器学习所用到的统计学方法。这里,结合《机器学习实战》把机器学习所涉及到的算法用Python实现

一、什么是机器学习

举个栗子:比如一个女孩要找对象,而媒婆手里有很多年轻的小伙子,那如何给女孩推荐心仪的男孩子呢?根据当今社会正常的审美观,提取以下三个特征:身高:高或矮,颜值:高或低,性格:老实或幽默,然后我们参考经验数据再找出受欢迎和不受欢迎的组合。于是,媒婆就参考这个结果,即模型,对手里的男生进行甄别,然后向女孩推荐可靠的人选。结果,女孩很满意,媒婆得到了一大笔介绍费。

[Mitchel,1997]给出了一个形象化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

更通俗来讲,机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”往往通过数据的形式存在,因而,机器学习所研究的主要内容,是关于在计算机上从“数据”中产生模型的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型。在面对新情况时,模型会给我们提供相应的判断** @周志航的《机器学习》**
总结一下,机器学习就是利用经验不断的进行自我学习,不断的进行迭代优化,以改善系统自身的性能的一门学科。

二、K-近邻算法原理

基本原理:在分类问题中,存在一个样本数据集合,即训练样本集,并且每个样本集中的每个数据都有标签。输入没有标签的测试数据后,基于某种距离度量,找出与测试数据最近的K个数据,通常K是不大于20的整数。最后,选择K个个数据中出现次数最多的分类,将其作为新数据的分类。
距离度量方法,一般的,二维的欧式距离:
d = ( x 0 − x 1 ) 2 + ( y 0 − y 1 ) 2 d=\sqrt{ {(x_{0}-x_{1})}^{2}+(y_{0}-y_{1})^{2}} d=(x0x1​</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值