Knn: k-近领算法:K 是个数,由算法工程师设计,NN 是邻居, 近邻就是距离的意思,而平面的两点距离就是欧式距离。
比如说,你最近的3个邻居的距离。那么k 就是3,NN就是这最近3个邻居。距离算的是欧式距离
k: 是算法工程师设计的,所以叫做超参数,调参,就是调的超参数。
分类的时候: 判断最近K 个最近样本的类别
回归的时候: 判断最近K个最近样本目标的平均值
K的建议: 不建议用偶数,不建议超过7,不建议是类别个数的倍数。
特征处理
在该数据中,体重,和身高,视力大小相差太大了,就会导致,学习的时候,体重权重过大,导致没有学习到身高和视力的东西
归一化: 指的是把数据分布到0-1
把数据转成标准正态分布
标准差决定胖瘦即分布的幅度。均值决定横坐标数值,当平均值为0,并且标准差为1的时候,就是正态分布。
ps: 数据归一化的时候,容易受异常点的影响,所以通常不会使用(除了图片这种标准化的时候只会存在0-255)
案例:利用KNN算法进行分类:
先把花朵,转成特征向量:花瓣长度,花瓣宽度,花蕊长度,花蕊宽度。
由于不是图片,而是计算数据,所以不是选择归一化,而是选择标准化。