浅谈分类中差异性（距离）

最新推荐文章于 2022-09-02 14:58:12 发布

谢嘉嘉嘉嘉

最新推荐文章于 2022-09-02 14:58:12 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：机器学习算法 knn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37824397/article/details/61915119

版权

本文介绍了在分类问题中如何刻画数据的差异性，特别是针对不同类型的属性，如标称属性、二元属性、数值属性和序列属性，分别探讨了不匹配率、Jaccard系数、欧式距离、曼哈顿距离、闵可夫斯基距离、切比雪夫距离和马氏距离等距离计算方法，并强调在处理概率分布问题时，马氏距离的重要性。

摘要由CSDN通过智能技术生成

问题一：从实际问题出发

现实生活中，我们往往能够找到很多分类的例子。假设某个疾病只跟k个因素有关，那么我们通过获取病人这k个因素的数据和不生病人k个因素的取值，可以建立起一个判别函数。当我们有一个检测样本进来的时候，我们通过k个因素的取值和检测函数就能最终判别出该样本的情况。

问题二：数据属性差异性的刻画

比较典型的算法是knn算法，我们通过计算未知数据周围最近的k个数据进行投票，最终确定出未知点的分类。所以，如何找到离未知数据最相似的k个点成为我们需要解决的问题。

我们需要找到一个合适的距离计算来进行刻画对象的差异性，我们将分几种情况进行讨论：标称属性、二元属性、数值属性、序列属性。

（一）标称属性

当我们的数据属性如下图所示，为混合类型的样本时，对于test_1这类标称属性，我们可以采取不匹配率来进行计算数据间的差异性。m是匹配的数目，p是刻画对象的属性总数。

最低0.47元/天解锁文章

谢嘉嘉嘉嘉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅谈分类中差异性（距离）

问题一：从实际问题出发现实生活中，我们往往能够找到很多分类的例子。假设某个疾病只跟k个因素有关，那么我们通过获取病人这k个因素的数据和不生病人k个因素的取值，可以建立起一个判别函数。当我们有一个检测样本进来的时候，我们通过k个因素的取值和检测函数就能最终判别出该样本的情况。问题二：数据属性差异性的刻画比较典型的算法是knn算法，我们通过计算未知数据周围最近的k个数据进行投票，最终
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。