KNN 的简单应用

本文通过实验分析了KNN算法在UCI的iris数据集上的应用,探讨了k值、欧拉距离的使用以及数据归一化对分类错误率的影响。实验表明,在iris数据集上,不使用欧拉距离且k值取sqrt(m)时,错误率最低。此外,未归一化的数据在本数据集上表现出更好的分类效果。
摘要由CSDN通过智能技术生成

一、 概述

    本报告在单一数据集上测试了 KNN 的 k 值,欧拉距离的使用与否,归一化数据与否对 KNN 算法结果的影响,测试数据来源于 UCI 机器学习数据集的 iris 数据集,由于数据量较少,采用交叉验证的方式(10-fold-cross validation),实验结果表明,在本数据集上使用欧拉距离,不进行特征归一化,在 k = sqrt(m)(m 为数据测试量)能取得最小的错误率,并对不同变量影响下的结果进行了分析。

二、 数据集分析

iris 数据集的中文名是安德森鸢尾花卉数据集,英文全称是 Anderson’s Iris dataset。iris 包含 150 个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,一共分为三类:


虽然是四维数据,但其属性主要分为两类:sepal 的长宽, petal 的长宽,首先分别根据其绘制散点图进行分析:



图中可以看出红色点代表的 Setosa 类与其他两类区分交大,而蓝绿点在 sepal属性上有所混叠,可以尝试使用 KNN 算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值