K-近邻:用距离度量最相邻的分类标签
工作原理:
- 计算机样本数据中的点与当前点之间的距离
- 算法提取样本相似数据(最近邻)的分类标签
- 确定前k个点所在类别的出现频率,一般只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数
- 返回前k个点所出现频率最高的类别作为当前点的预测分类
k近邻算法的一个常见应用是手写数字识别。手写字对于人脑来说,看到的数字是一幅画像,而在电脑看来就是一个二维或三维数组,那怎么识别数字呢
使用k近邻算法进行识别的具体步骤为: - 首先将每个图片处理为具有相同的色彩和大小:宽高32像素*32像素
- 将3232的二进制图像矩阵转换成11024的测试向量
- 将训练样本储存在训练矩阵中,创建一个m行1024列的训练矩阵,矩阵的每行数据存储一个图像
- 计算目标样本与训练样本的距离,选择前k个点所出现频率最高的数字作为当前手写字体的预测分类