k 近邻算法是一种分类算法
对于未知类别的点:
1.计算已知类别的点到当前点中的距离(计算距离)
2.按照距离以此排序(排序)
3.选取与当前点距离最近的k个点(选K个点)
4.确定前k个点的类别(确定类别)
5.选取出现类别次数最多的点的类别,作为未知点的类别。
k 近邻算法的三个要素: k值的选取,距离度量,分类决策规则
k 近邻中如果出现样本不平衡。 解决方式:不同的样本赋予不同的权重。
1.预处理你的数据:对你数据中的特征进行归一化(normalize),让其具有0均值和单位方差。
2.输入数据是高维数据,考虑采用降维方法比如pca
3.将数据分为训练集和验证集,按照一般规律,70%-90%数据作为训练集
4.在验证集上调优,尝试足够多的k值,尝试L1和L2两种范数的计算方式