一,KNN算法
两点指点求距离公式:
KNN算法:
步骤:求距离》选最近》投票
两个问题:
K值的选择,影响分类结果,K值过大,容易欠拟合;K值过小,容易过拟合
不均衡样本,KNN算法效果不好
二、度量距离
3.距离度量
1,欧式距离(平方开根号)
2,曼哈顿距离(绝对值之和)
3,切比雪夫距离(棋盘,绝对值最大的)
4,马氏距离(分布及方差等)
5,汉明距离(文字编辑,信息传输)
6,杰卡德距离(集合相似性)
7,巴氏距离(概率相似性)
4.算法复杂度:
降级排序如下:
阶指幂对–> 阶–>指–>幂–>对
O(log n)比O(n)快,当需要搜索的元素越多时,前者比后者快得越多
5,KDTree
构建:对应维度切割构建树结构(剩余未被分割样本的维度的方差,哪个维度最大就选哪个维度切割)
算法的速度指的并非时间,而是操作数的增速。
(每增加一个样本时,增加的运行时间是非常高的)