Machine Learning 实战练习

KNN K近邻分类算法思想:

假设我们有训练数据<x,y>, x表示某个已经分类的样本,y表示其所属的分类,现在要对样本z进行分类。

步骤如下:

(1)计算 z 与所有 x 的距离 D,距离计算公式有多种,如欧氏距离。

(2)按照距离 D 将已分类的样本进行排序。

(3)选取前 K 个样本,统计这些样本所属的类别,出现次数最多的即为z所属类别。

主要方法:

def file2matrix(fileName):
    fr = open(fileName)
    lines = fr.readlines()
    numofLines = len(lines)
    returnMatrix = zeros((numofLines,3))  //生成矩阵
    classLabelVector = []
    index=0
    for line in lines:
        line = line.strip(); //去除回车
        listFromLine = line.split('\t')
        returnMatrix[index,:] = listFromLine[0:3] //对矩阵进行赋值
        classLabelVector.append(int(listFromLine[-1]))
        index = index +1
    return returnMatrix,classLabelVector

 

def classify(inX,dataSet,labels,k):
    dataSetSize  = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1))-dataSet
    sqDiffMat = diffMat**2;
    sqDistence = sqDiffMat.sum(axis=1)
    distances = sqDistence**0.5
    sortedDistances = distances.argsort()
    classCount={}
    for i in range(k):
        votelabel = labels[sortedDistances[i]]
        classCount[votelabel] = classCount.get(votelabel,0)+1
    sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

def autoNorm(dataset):
    minvalue = dataset.min(0)
    maxvalue = dataset.max(0)
    ranges = maxvalue-minvalue
    m = dataset.shape[0]
    normdataset = dataset-tile(minvalue,(m,1))
    normdataset = normdataset/tile(ranges,(m,1))
    return normdataset,ranges,minvalue

转载于:https://my.oschina.net/u/858272/blog/692458

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值