K邻近算法（2）测试分类器 from机器学习

最新推荐文章于 2024-04-02 13:54:38 发布

菜逼庄水水

最新推荐文章于 2024-04-02 13:54:38 发布

阅读量136

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_33604355/article/details/88807037

版权

该博客介绍了K近邻算法的应用，通过一个改进约会网站配对效果的实例，展示了数据归一化处理的重要性，并提供了测试分类器的步骤。内容包括数据集的读取、matplotlib作图、归一化处理的代码实现以及测试算法的运行结果。此外，还提及了一个手写图像识别系统的概念。

摘要由CSDN通过智能技术生成

接上一段，测试分类器

栗子：改进约会网站的配对效果
数据集如下图
在这里插入图片描述样本包含以下三个特征：每年飞行里程数、玩游戏耗时百分比、每周吃的冰淇淋数
最后一列参数：1=不喜欢2=凑乎3=喜欢的人
利用python强大的文件处理能力，读取文件切片

'''
函数用来读取文本并切片
k临近算法改进约会网站配对效果
'''


def getfile(filename):
    fr = open(filename)
    arrayOlines = fr.readlines()
    # 按行读入 并获取文件行数
    inY = len(arrayOlines)

    # 创建一个矩阵,我们一行有3个特征，和一个结果,因此三列就ok了
    returnMat = np.zeros((inY, 3))
    classLabelVector = []
    index = 0
    for line in arrayOlines:
        # 去除回车？
        line = line.strip()
        listfromline = line.split('\t')

        returnMat[index, 0:3] = listfromline[0:3]
        classLabelVector.append(listfromline[-1])
        index += 1

    return returnMat, classLabelVector

返回了数据集矩阵、标签列表
测试如下：在这里插入图片描述然后利用matplotlib作图，获得一个直观的结果
咸鱼看了一上午的matplotlib（可以翻我上上篇博文）emmm这一段还算顺利
代码如下：

>>> fig =plt.figure()
>>> ax =fig.add_subplot(111)
>>> ax.scatter(returnMat[:,0],returnMat[:,1],15*np.array(classLabelVector),15*np.array(classLabelVector))
<matplotlib.collections.PathCollection object at 0x0000026C04EBF080>
>>> plt.show()

选择的是x轴是飞行公里数，y轴是玩游戏耗费时间百分比
这样处理应该是比较生动形象的

归一化处理

实际上，我们把数据点放在同一张图上，（因为x/y的坐标不同）客观上也是进行了归一化处理。
因为数字大的值，会对结果影响更大，eg:1000和900数值差10%，计算平方和差了10000，而同样差距为10%，1和0.9 平方和差0.01
如果我们把所有的特征值看做是等价的，就需要归一化处理

归一化处理就很简单
x0 = (x0-xmin)/(xmax -xmin)

'''
归一化处理
这个操作很简单的啦
'''
def autoNorm(dataSet):
    minval =dataSet.min(0)
    maxval =dataSet.max(0)
    ranges =maxval -minval

最低0.47元/天解锁文章

菜逼庄水水

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
K邻近算法（2）测试分类器 from机器学习

接上一段，测试分类器栗子：改进约会网站的配对效果数据集如下图样本包含以下三个特征：每年飞行里程数、玩游戏耗时百分比、每周吃的冰淇淋数最后一列参数：1=不喜欢2=凑乎3=喜欢的人利用python强大的文件处理能力，读取文件切片'''函数用来读取文本并切片k临近算法改进约会网站配对效果'''def getfile(filename): fr = open(filenam...
复制链接

扫一扫