《机器学习实战》第2章学习笔记2(knn算法)

本文记录了《机器学习实战》第2章的学习笔记,聚焦于knn算法在数字识别任务中的应用。图像数据集包含32x32像素的黑白图像,分为trainingDigits和testDigits两个目录,分别用于训练和测试模型。通过file2vector函数将图像转换为特征向量,然后利用改进后的handwritingClassTest方法进行分类。测试结果显示了模型的性能。
摘要由CSDN通过智能技术生成

图像采用文本格式存储,具有相同的色彩和大小: 宽髙是32像素*32像素的黑白图像。

实际图像存储在两个子目录内:目录加如trainingDigits中包含了大约2000个例子, 每个数字大约有200个样本;目录testDigits中包含了大约900个测试数据。我们使用目录trainingDigits中的数据训练分类器,使用目录testDigits中的数据来测试分类器的效果。两组数据没有覆盖。

代码示例:

# -*- coding: utf-8 -*-
"""
Created on Fri Apr 13 09:52:11 2018

@author: lizihua
"""
import numpy as np
import os 
import operator

#k-近邻算法
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]     #获取行数
    #计算欧式距离
    #将inX扩维,使其与dataSet形状一致,以便实现获得X-dataSet数组
    diffMat = np.tile(inX, (dataSetSize,1))-dataSet  
    sqdiffMat = diffMat**2
    sqDisatances = sqdiffMat.sum(axis=1)
    distances=sqDisatances**0.5
    #argsort返回distance从小到大的排序索引,此时,distance并没有改变
    sortedDistIndicies=np.argsort(distances)
    classCount={}
    for i in range(k):
        #voteIlabel是按照distance从小到大排
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值