第三章-KNN(分类和回归算法模型)

本文介绍了KNN(K近邻)模型,包括距离度量如曼哈顿距离和欧式距离,K值选择的影响,以及分类决策规则。K值的大小会影响预测结果,小K值可能导致过拟合,大K值可能导致欠拟合。KNN算法的实现涉及快速K近邻搜索,kd树能提高搜索效率。最后,文章引发了对KNN模型复杂度和过拟合问题的思考。
摘要由CSDN通过智能技术生成

上上一章已经学习了感知机模型、策略和算法,感知机对于分类任务有着其优点,但是该模型是在具有强假设的条件下——训练数据集必须是线性可分的,但是如果数据集是呈现无规则的分布,那么此时如果要做分类任务,还可以考虑k近邻(KNN),这是一种基本的分类和回归方法,既可以做简单的二分类也可以做复杂的多分类任务,还可以做回归任务。

KNN模型

KNN模型实际上对应于对特征空间的划分,虽然没有具体的数学抽象语言描述,但是仍然存在其三要素:距离度量、K值的选择、分类决策规则

距离度量

设 特 征 空 间 χ 是 n 维 实 数 向 量 空 间 R n , x i , x j ∈ χ , x i = ( x i ( 1 ) , x i ( 2 ) , x i ( 3 ) . . . , x i ( n ) ) T , x j = ( x j ( 1 ) , x j ( 2 ) , x j ( 3 ) . . . , x j ( n ) ) T , x i , x j 的 距 离 可 定 义 为 : L P ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 p 一 般 地 , 当 p = 1 时 , L 1 ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ ) , 称 为 曼 哈 顿 距 离 ; 当 p = 2 时 , L 2 ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ 2 ) 1 2 , 其 实 形 式 上 也 是 L 2 范 数 , 称 为 欧 式 距 离 , 平 常 使 用 的 比 较 多 ; 当 p = ∞ , 它 是 各 个 坐 标 距 离 的 最 大 值 , 即 为 : L ∞ ( x i , x j ) = m a x ∣ x i ( l ) − x j ( l ) ∣ 设特征空间\chi是n维实数向量空间R^n,x_i,x_j \in \chi,x_i=(x_i^{(1)},x_i^{(2)},x_i^{(3)}...,x_i^{(n)})^T,\\ x_j=(x_j^{(1)},x_j^{(2)},x_j^{(3)}...,x_j^{(n)})^T,x_i,x_j的距离可定义为:\\ L_P(x_i,x_j)=(\sum^n_{l=1}|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}}\\ 一般地,当p=1时,L_1(x_i,x_j)=(\sum^n_{l=1}|x_i^{(l)}-x_j^{(l)}|),称为曼哈顿距离;\\ 当p=2时,L_2(x_i,x_j)=(\sum^n_{l=1}|x_i^{(l)}-x_j^{(l)}|^2)^{\frac{1}{2}},其实形式上也是L2范数,称为欧式距离,平常使用的比较多;\\ 当p=\infty,它是各个坐标距离的最大值,即为:L_{\infty}(x_i,x_j)=max|x_i^{(l)}-x_j^{(l)}| χnRn,xi,xjχ,xi=(xi(1),xi(2),xi(3)...,xi(n))T,xj=(xj(1),xj(2),xj(3)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值