什么是KNN算法
KNN算法,即K邻近算法,根据已知的数据样本排序,取得最靠近待预测样本的前K个已知数据样本的目标值,作为待预测样本的目标值,是一种监督式的学习方式。
(大白话:根据邻居来推断类别)
实例:用KNN实现鸢尾花分类
案例说明:
数据集为Iris鸢尾花图片数据集,本算法通过KNN(K邻近算法)对鸢尾花进行分类,并计算最终的准确率。
# 数据集
from sklearn.datasets import load_iris
# 划分测试训练
from sklearn.model_selection import train_test_split
# 标准化
from sklearn.preprocessing import StandardScaler
# 分类器
from sklearn.neighbors import KNeighborsClassifier
def dnn_iris():
'''用KNN算法对鸢尾花分类'''
# 1 获取数据
iris = load_iris()
# 2 划分数据集
x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, random_state=6)# 随机数种子
# 3 特征工程标准化(x-u/σ)区别归一化(x-min/max-min)
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
# 沿用上述的fit标准差
x_test = transfer.transform(x_test)
# 4 KNN算法预估器
estimator = KNeighborsClassifier(n_neighbors=3)
estimator.fit(x_train,y_train)
# 5 模型评估 准确率
score = estimator.score(x_test,y_test)
print(score)
return None
if __name__ == '__main__':
print('KNN算法进行鸢尾花分类')
dnn_iris()
算法注意的细节
1、K的选取
(1)k过大–>会出现样本不均衡带来的影响
(2)k过小–>会出现样本异常值带来的影响
2、消除量纲所选取的方法
(1)标准化–>(x-μ)/σ
(2)归一化–>(x-min)/(max-min)
在本算法中选取标准化来消除量纲影响,原因是,归一化方法可能会出现异常值的影响。
3、如何衡量样本邻近
(1)欧氏距离
样本的各个指标的差平方之和再开方
(2)曼哈顿距离
样本的各个指标的差的绝对值之和
在本算法中选取欧氏距离来衡量样本间的距离
4、时间复杂度
O(NT),其中N为数据量,T为迭代轮数,因此当T=1时,时间复杂度为O(N)。另外,距离排序算法时间复杂度为O(NlogN)。
说明:个人学习使用,参考视频链接为https://www.bilibili.com/video/BV1nt411r7tj?p=21&spm_id_from=pageDriver