KNN算法模型及优缺点

最新推荐文章于 2024-08-24 14:08:21 发布

Oo_Amy_oO

最新推荐文章于 2024-08-24 14:08:21 发布

阅读量91

点赞数

文章标签：算法机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Oo_Amy_oO/article/details/134446137

版权

KNN算法的数学模型如下：

设训练集 $T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ ，其中 $x_i\in R^n$ 为样本特征向量， $y_i\in {c_1,c_2,...,c_k}$ 为样本的类别， $i = 1, 2, ..., n$ ， $k$ 为类别数。

对于一个新样本 $x$ ，KNN算法的流程如下：

计算新样本 $x$ 与训练集中各个样本 $x_i$ 的距离 $dist(x,x_i)$ 。

根据距离值，选取距离 $x$ 最近的 $k$ 个样本 $x_{i_1},x_{i_2},...,x_{i_k}$ ，它们的类别分别为 $y_{i_1},y_{i_2},...,y_{i_k}$ 。

统计 $k$ 个样本的类别出现频率，选择出现频率最高的类别作为新样本 $x$ 的类别。

数学模型即为：

$y=arg\max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j)$

其中， $N_k(x)$ 表示距离 $x$ 最近的 $k$ 个样本， $I$ 为指示函数，若 $y_i=c_j$ ，则 $I(y_i=c_j)=1$ ，否则 $I(y_i=c_j)=0$ 。

K-均值聚类是一种无监督学习算法，用于将数据集中的数据点分成 K 个簇，以便簇内的数据点相似度最高，而不同簇之间的数据点相似度最低。该算法的步骤如下：

随机选择 K 个数据点作为初始聚类中心。
将每个数据点分配到距离它最近的聚类中心所在的簇中。
计算每个簇的中心点，将其作为新的聚类中心。
重复步骤 2 和 3 直到聚类中心不再发生变化或达到预定的迭代次数。
优点：

算法简单，易于实现和理解。
能够处理大规模数据集。
适用于连续和离散的数据类型。
缺点：

算法对初始聚类中心的选择敏感，可能导致结果不稳定。
算法在处理不平衡的数据分布时效果不好，因为簇大小不一定相等。
算法需要事先指定 K 值。
总之，K-均值聚类算法是一种简单有效的聚类算法，在实践中广泛应用，但是在数据集选择、初始聚类中心的选择等方面需要注意一些细节，以获得更好的聚类效果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
KNN算法模型及优缺点

K-均值聚类是一种无监督学习算法，用于将数据集中的数据点分成 K 个簇，以便簇内的数据点相似度最高，而不同簇之间的数据点相似度最低。总之，K-均值聚类算法是一种简单有效的聚类算法，在实践中广泛应用，但是在数据集选择、初始聚类中心的选择等方面需要注意一些细节，以获得更好的聚类效果。个样本的类别出现频率，选择出现频率最高的类别作为新样本。将每个数据点分配到距离它最近的聚类中心所在的簇中。算法对初始聚类中心的选择敏感，可能导致结果不稳定。计算每个簇的中心点，将其作为新的聚类中心。算法简单，易于实现和理解。
复制链接

扫一扫

Oo_Amy_oO CSDN认证博客专家 CSDN认证企业博客

码龄4年

34: 原创

112万+: 周排名

11万+: 总排名

3万+: 访问

: 等级

700: 积分

230: 粉丝

295: 获赞

18: 评论

333: 收藏

私信

关注

热门文章

分类专栏

最新评论

达梦数据库查主键
菜菜的大数据开发之路: 感谢博主的分享,你真是太帅了(^ ^)／▽▽＼(^ ^)
达梦数据库查主键
菜菜的大数据开发之路: 您写的是真的好,比我强多了,能否指点一下?
数据分析流程
CSDN-Ada助手: 恭喜您撰写了这么有价值的博客！数据分析流程是一个非常重要的话题，您的文章对于初学者来说非常有帮助。接下来，我建议您可以考虑在下一篇博客中分享一些实际案例，让读者更好地理解数据分析流程在实际工作中的应用。谢谢您的分享，期待您更多的精彩内容！
特征工程 -- 数据分桶
CSDN-Ada助手: 恭喜您发布了关于特征工程的新博客！数据分桶是一个非常重要的主题，您的解释和案例都非常清晰易懂。希望您能继续分享更多关于特征工程的知识，也可以考虑结合实际案例进行更深入的分析，这样可以帮助更多的读者更好地理解和应用这些方法。期待您的下一篇博客！
特征工程 -- 特征选择
CSDN-Ada助手: 恭喜作者撰写了第20篇博客！特征工程和特征选择是数据分析中非常重要的一环，您的分享无疑对读者有着巨大的帮助。希望您能在以后的创作中继续分享更多关于数据分析和特征工程的经验和心得，或许可以结合一些实际案例进行分析，这样更能帮助读者理解和应用。期待您的下一篇博客！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。