《机器学习实战》学习笔记第二章-KNN

本文介绍了K-近邻(KNN)算法,通过实例展示了如何利用KNN改进约会网站的配对效果,包括数据提取、散点图分析、数值归一化和算法测试。此外,还探讨了手写识别系统的实现,最终达到低错误率的识别效果。
摘要由CSDN通过智能技术生成

KNN K-近邻算法

目录

1.K-近邻算法介绍

2.改进约会网站的配对效果

从本文文件中提取数据

创建散点图显示数据相关性

数值归一化

测试算法

给海伦的程序(交互实现)

3.手写识别系统


1.K-近邻算法介绍

以近邻K个点为参考,多数是什么特征,未知点就是什么特征。即采用测量不同特征值直接的距离方法来进行分类。截图来自B站《五分钟机器学习》

优点:直观,好理解、局部分布,不需要估计整体、精度高、对异常值不敏感、无数据输入假定

缺点:局部估算可能不符合全局分布,对K的取值非常敏感,计算复杂度高,空间复杂度高

使用数据范围:数值型和标称型

一般流程:

1.收集数据

2.准备数据:距离计算所需要的数值,最好是结构化的数据格式

3.分析数据:任何方法

4.训练算法:不需要

5.测试算法:计算错误率

6.使用算法

基本流程:

import numpy as np
import operator

def createDataSet():
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

def classify0(inX,dataSet,labels,k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX,(dataSetSize,1))-dataSet #tile复制几行几列
    sqDiffMat = diffMat**2
    sqDistances= sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort() #将数组按照从小到大的顺序排序,输出对应的索引值。
    classCount={}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]  #key
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1 #value+1
    #字典分解成元组列表,按元组的第二个元素进行逆序排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

group,labels = createDataSet()
mm = classify0([0,0],group,labels,3)
print(mm)

输出B

2.改进约会网站的配对效果

从本文文件中提取数据

def file2matrix(filename): #从文本中提取数据
    fr = open(filena
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值