knn

最新推荐文章于 2022-12-08 01:13:03 发布

weixin_41932017

最新推荐文章于 2022-12-08 01:13:03 发布

阅读量223

点赞数

knn

算法思路：
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

k近邻模型的三个基本要素：

k值的选择：k值的选择会对结果产生重大影响。较小的k值可以减少近似误差，但是会增加估计误差；较大的k值可以减小估计误差，但是会增加近似误差。一般而言，通常采用交叉验证法来选取最优的k值。
距离度量：距离反映了特征空间中两个实例的相似程度。可以采用欧氏距离、曼哈顿距离等。
分类决策规则：往往采用多数表决。

应用实例

问题描述

已知若干人的性别、身高和体重，给定身高和体重判断性别。考虑使用k近邻算法实现性别的分类，使用k-means实现性别的聚类。

数据

数据集合：https://github.com/shuaijiang/FemaleMaleDatabase

该数据集包含了训练数据集和测试数据集，考虑在该数据集上利用k近邻算法和k-means方法分别实现性别的分类和聚类。

将训练数据展示到图中，可以更加直观地观察到数据样本之间的联系和差异，以及不同性别之间的差异。
数据展示

KNN的分类结果

KNN算法中的基本设置

k=5
距离度量：欧氏距离
分类决策规则：多数投票
测试集：https://github.com/shuaijiang/FemaleMaleDatabase/blob/master/test0.txt

利用KNN算法，在测试集上的结果如下混淆矩阵表所示。从表中可以看出，测试集中的男性全部分类正确，测试集中的女性有一个被错误分类，其他都分类正确。

混淆矩阵 Test:male Test:female
Result:male 20 1
Result:female 0 14

混淆矩阵	Test:male	Test:female
Result:male	20	1
Result:female	0	14

（表注：Test:male、Test:female分别表示测试集中的男性和女性，Result:male和Result:female分别表示结果中的男性和女性。表格中第一个元素：即Test:male列、Result：male行，表示测试集中为男性、并且结果中也为男性的数目。表格中其他元素所代表的含义以此类推）
由上表可以计算分类的正确率：(20+14)/(20+14+1) = 97.14%

weixin_41932017

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
knn

knn算法思路：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。k近邻模型的三个基本要素：k值的选择：k值的选择会对结果产生重大影响。较小的k值可以减少近似误差，但是会增加估计误差；较大的k值可以减小估计误差，但是会增加近似误差。一般而言，通常采用交叉验证法来选取最优的k值。距离度量：距离反映了特征空间中两个实例的相似程度。可以采用...
复制链接

扫一扫