K邻近算法(2) 测试分类器 from机器学习

该博客介绍了K近邻算法的应用,通过一个改进约会网站配对效果的实例,展示了数据归一化处理的重要性,并提供了测试分类器的步骤。内容包括数据集的读取、matplotlib作图、归一化处理的代码实现以及测试算法的运行结果。此外,还提及了一个手写图像识别系统的概念。
摘要由CSDN通过智能技术生成

接上一段,测试分类器

栗子:改进约会网站的配对效果
数据集如下图
在这里插入图片描述样本包含以下三个特征:每年飞行里程数、玩游戏耗时百分比、每周吃的冰淇淋数
最后一列参数:1=不喜欢2=凑乎3=喜欢的人
利用python强大的文件处理能力,读取文件切片

'''
函数用来读取文本并切片
k临近算法改进约会网站配对效果
'''


def getfile(filename):
    fr = open(filename)
    arrayOlines = fr.readlines()
    # 按行读入 并获取文件行数
    inY = len(arrayOlines)

    # 创建一个矩阵,我们一行有3个特征,和一个结果,因此三列就ok了
    returnMat = np.zeros((inY, 3))
    classLabelVector = []
    index = 0
    for line in arrayOlines:
        # 去除回车?
        line = line.strip()
        listfromline = line.split('\t')

        returnMat[index, 0:3] = listfromline[0:3]
        classLabelVector.append(listfromline[-1])
        index += 1

    return returnMat, classLabelVector

返回了数据集矩阵、标签列表
测试如下:在这里插入图片描述然后利用matplotlib作图,获得一个直观的结果
咸鱼看了一上午的matplotlib(可以翻我上上篇博文)emmm这一段还算顺利
代码如下:

>>> fig =plt.figure()
>>> ax =fig.add_subplot(111)
>>> ax.scatter(returnMat[:,0],returnMat[:,1],15*np.array(classLabelVector),15*np.array(classLabelVector))
<matplotlib.collections.PathCollection object at 0x0000026C04EBF080>
>>> plt.show()

选择的是x轴是飞行公里数,y轴是玩游戏耗费时间百分比
这样处理应该是比较生动形象的

归一化处理

实际上,我们把数据点放在同一张图上,(因为x/y的坐标不同)客观上也是进行了归一化处理。
因为数字大的值,会对结果影响更大,eg:1000和900数值差10%,计算平方和差了10000,而同样差距为10%,1和0.9 平方和差0.01
如果我们把所有的特征值看做是等价的,就需要归一化处理

归一化处理就很简单
x0 = (x0-xmin)/(xmax -xmin)

'''
归一化处理
这个操作很简单的啦
'''
def autoNorm(dataSet):
    minval =dataSet.min(0)
    maxval =dataSet.max(0)
    ranges =maxval -minval

 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值