机器学习： k－近邻（kNN)

最新推荐文章于 2024-04-15 22:51:42 发布

autoliuweijie

最新推荐文章于 2024-04-15 22:51:42 发布

阅读量689

点赞数

分类专栏：机器学习文章标签：机器学习数据统计学李航数据挖掘

本文链接：https://blog.csdn.net/autoliuweijie/article/details/50285455

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

1. k-nn描述:

给定一个训练数据集，对于新输入的实例，在训练集中找到与该实例最近的k个实例，统计这k个实例中多数的类别，就把该类别作为新输入实例的类别。

2. 参数:

距离度量：

Lp距离（欧式距离、曼哈顿距离等）、皮尔逊距离、夹脚余弦距离。。。

$lp distance$
 
k的选择:

如果k较小，相当于模型过于复杂，容易过拟合；

k过大，相当于模型变得简单，容易欠拟合。

在应用中，k值一般取一个比较小的数值。通常采用交叉验证法来选取最优的k值。

3. python代码:

我的实现:

https://github.com/autoliuweijie/MachineLearning/tree/master/kNN

sickit－learn:

python:

    #Import Library
    from sklearn.neighbors import KNeighborsClassifier
    #Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
    # Create KNeighbors classifier object model
    KNeighborsClassifier(n_neighbors=6) # default value for n_neighbors is 5
    # Train the model using the training sets and check score
    model.fit(X, y)
    #Predict Output
    predicted= model.predict(x_test)

4. 扩展:

 
稍加改变，例如对k个实例加权，可以用于回归。

参考：

[1]《统计学习方法》 李航 2012年3月第一版
[2]《机器学习实战》 Peter Harrington

autoliuweijie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录