第三章 k 近邻

最新推荐文章于 2022-04-05 15:24:03 发布

csdn_lzw

最新推荐文章于 2022-04-05 15:24:03 发布

阅读量185

点赞数

分类专栏：统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_lzw/article/details/79534304

版权

统计学习方法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

k 近邻

KNN分类回归方法：分类任务“投票法”，回归任务“平均法”。
懒惰学习的代表：在训练阶段仅仅是把样本保存起来，训练时间开销为0，待收到测试样本再进行处理。
模型：利用训练数据集对特征向量空间进行划分，并作为分类的“模型”。
策略：多数表决规则（等价于经验风险最小化）。

多数表决规则：如果分类的损失函数为0-1损失函数
对给定的样本 $x$ ,其最近邻的 $k$ 个训练实例点构成的集合 $N_k(x)$ 。对应的类别为 $c_j$ 。
那么误分类率为
$\frac{1}{k}\sum_\limits{x_i \in N_k(x)}I(y_i \not= c_j)=1-\frac{1}{k}\sum_\limits{x_i \in N_k(x)}I(y_i = c_j)$
误分类率最小即经验风险最小，即 $\sum_\limits{x_i \in N_k(x)}I(y_i = c_j)$ 最大。

k值的选取

小的k值，相当于用较小的训练实例进行预测，“学习”的近似误差会减小，
只有与输入实例较近的训练实例才会对预测结果起作用。
但是缺点是“学习”估计误差会增大，预测结果会对近邻的实例点非常敏感

k小模型复杂，易发生过拟合。
k大模型变得简单，极端情况，k=N，无论输入实例是什么，都将简单地预测它属于在训练实例中最多的类。

kd树

https://www.cnblogs.com/lysuns/articles/4710712.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

csdn_lzw CSDN认证博客专家 CSDN认证企业博客

码龄9年

100: 原创

13万+: 周排名

35万+: 总排名

25万+: 访问

: 等级

2829: 积分

64: 粉丝

90: 获赞

27: 评论

347: 收藏

私信

关注

热门文章

分类专栏

最新评论

随机深林-特征重要性计算方式
冰淇淋蛋糕冰淇淋蛋糕: 谢谢分享，写得很清楚！
oneclassSVM ，SVDD
此景应情: 请问，one class classification的评估指标是什么？怎么评估模型的好坏？
数据预处理——样本分布（正态分布、偏态分布）
weixin_39034217: 不懂。比如，原本非高斯序列x，经过y=log(x)函数的变化得到y，y虽然可能更加服从高斯分布，但是y已经不等于x了，y的高斯分布的均值和方差和x有什么关系嘛？可以通过y的高斯分布的均值和方差来近似x的嘛是？此外，log(x)需要x大于0吧。但是如果是x有小于零的元素呢。谢谢！
python中strip()，lstrip()，rstrip()函数的讲解
Tisfy: 这让我想起了先贤的一句话：将军角弓不得控，都护铁衣冷难着。
《机器学习实战》第三章 3.2在python 中使用matplotlib注解绘制树形图
木雨目q: treePloter 是什么?是自己写的，还是python3自带的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。