16、使用K近邻算法发现模式并进行预测

使用K近邻算法发现模式并进行预测

1. K近邻算法概述

K近邻算法(KNN)与神经网络和决策树这两种算法形成了有趣的对比,它与传统技术的差异也十分显著。其基本概念很简单:当向算法呈现一个新案例时,它会找出少数与新案例最相似的训练案例,并基于新案例会与最接近案例中的大多数属于同一类别的假设对其进行分类。例如,若要预测员工的工资,且 k = 5,那么预测工资将是训练数据集中与新案例最相似的 5 名员工工资的平均值。

KNN 没有从训练集生成模型,没有系数,也不进行显著性检验和类似 R² 的拟合优度检验。计算机科学家常称 KNN 为“懒惰学习者”,因为它不会以传统方式创建模型,其“模型”实际上只是训练数据的所有位置,因此它常被描述为“基于内存”或“基于实例”的技术。由于它要“记忆”整个训练数据集,所以速度可能较慢。不过,数据挖掘者不会仅因技术的复杂程度而评判算法,KNN 几乎没有理论,也没有分布假设,其有效性需通过实际应用来证明。

2. 使用 KNN 寻找“邻居”

KNN 不仅可用于分类,有时也用于单纯寻找距离,目标通常是找出最接近的数据点。例如,在不使用目标变量的情况下运行该技术,可找出在输入变量上与其他乘客相似的乘客。这一特性在类似 eHarmony 的交友网站服务中也有应用,网站并非进行传统意义上的预测,而是识别那些与其他记录(如女性)在欧几里得距离或其他距离度量上接近的记录(如男性),其背后的理论是,通过大量问题的相似答案衡量的“兼容性”能增加人与人建立“联系”的可能性。

在 IBM SPSS Modeler Cookbook 中还有一个例子,涉及将虚构呼叫中心的销售人员与具有相似特征的来电客户进行匹配。以下是“相邻”客户和销售代表对

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值