KNN 同时使用离散和连续变量作为训练数据

最新推荐文章于 2023-06-17 14:17:25 发布

大胖头leo

最新推荐文章于 2023-06-17 14:17:25 发布

阅读量4.5k

点赞数 4

分类专栏： R 数据分析统计学文章标签： KNN

本文链接：https://blog.csdn.net/a8131357leo/article/details/89526656

版权

10 篇文章 1 订阅

订阅专栏

10 篇文章 6 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

KNN是通过计算距离，获得最近的K个邻居而完成分类，所以说，他本质上是要用numeric 来完成分类。所以可以通过将分类变量转换为numeric 来进行KNN分类：

如果是这样的转化没有问题，因为本身 categorical data 就是有顺序的，（ordinal data），当你对衣服大小编码时就是没问题的。

1<2 而显示意义上 S<M，所以是没问题，可以直接KNN，结果也是相关的，因为衡量距离也是有意义的

但是如果分类变量是nominal的

这时候编码就有问题了，为什么学生会小于老师，等于为原有的数据添加的而外的信息，那我如果用不同的编码的话结果就可能很不一样，所以KNN会有问题

对于这些数据因为没有顺序，所以他们的距离应该是相等的。所以编码应该是

这样距离就是相等了，但是这又会出现另一个问题，对于每一个职业都给了一个单独的binomial变量，很有可能导致高维的问题也就是 P>N, 即便K设置的很小很小，预测的误差还是很大。

总结一句，再对分类变量进行KNN时，要仔细想想 KNN的“距离” 在分类变量的意义到底是什么

关注