k-近邻算法
针对多分类问题
三大要素:k值,距离度量,决策规则
k值:过大,过拟合;过小,欠拟合??
距离度量:L-P函数
决策规则:多数表决
主函数:classify
输入:k值,待分类数据集,学习数据集,训练数据类别
输出:类别
思路:计算待分类数据与左右训练数据的距离,根据距离小的前k个的数据类别的多数决定该数据的类别
子函数:
(1)file2matrix:读取文件
输入:文件名
输出:数据以及类别
(2)majority:同决策树
(3)autonorm:数值归一化
输入:数据
输出:最小值,最小最大差值,归一化后的数据
思路:投影到零到壹,公式:(x-min)/(max-min)
案例:改进约会网站
测试:测试集的构造and误分率的计算
预测:互动式数据数据
案例:手写识别系统
img2vector:将32*32像素变为1024
deal:批量处理同一目录下的文件