k-NN

  • k近邻算法的工作原理:

存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集合中前k个最相似的数据,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

  • kNN实现伪代码:

(1)计算已知类别数据集中的点与当前点之间的距离;

(2)按照距离递增次序排序;

(3)选取与当前点距离最小的k个点;

(4)确定前k个点所在类别的出现频率;

(5)返回前k个点出现频率最高的类别作为当前点的预测分类。

代码实现

def kNN(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX,(dataSetSize,1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistance = sqDiffMat.sum(axis=1)
    distances = sqDistance ** 0.5
    sortedDistIndicies = distances.argsort()
    ClassCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        ClassCount[voteIlabel] = ClassCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(ClassCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

(1)kNN函数输入的四个参数:用于分类的输入向量inX,输入的训练样本集为dataSet,标签向量labels,选择最近邻的数目k

(2)dataSetSize=dataSet.shape[0] //训练样本集dataSet的第一维大小(样本数量)

(3)numpy.tile(A,reps) //Construct an array by repeating A the number of times given by reps.

(4)** 次方操作

(5)get函数,详见这里

(6)sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

这里使用了sorted()函数sorted(iterable, cmp=None, key=None, reverse=False),iteritems()将dict分解为元组列表,operator.itemgetter(1)表示按照第二个元素的次序对元组进行排序,reverse=True降序

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop K-NN算法是一种基于分布式计算框架的机器学习算法,它通过将数据集拆分成多个小数据集,并通过多个节点进行并行计算,以提高算法的处理效率和精度。在学习和实践Hadoop K-NN算法的过程中,我有以下几点感悟: 首先,Hadoop K-NN算法的分布式计算模式和MapReduce编程模型是算法的核心。通过将数据集拆分成多个小数据集,然后在多个节点上进行并行计算,可以大大提高算法的处理效率和精度。同时,MapReduce编程模型提供了一种简单易用的编程方式,可以让开发者快速构建分布式计算应用。 其次,Hadoop K-NN算法的实现需要考虑数据的分布和负载均衡问题。由于数据集被拆分成多个小数据集,数据的分布情况会影响到算法的处理效率和精度。因此,在实现Hadoop K-NN算法时,需要考虑数据的分布情况和负载均衡问题,以保证算法的效率和精度。 最后,Hadoop K-NN算法的应用场景非常广泛。例如,它可以应用在电商网站中的商品推荐、医疗领域中的疾病诊断、金融领域中的风险评估等方面。通过对数据进行分类、聚类和预测等分析,可以帮助企业和个人更好地了解数据,从而作出更加准确的决策。 总之,Hadoop K-NN算法是一种非常有意义的机器学习算法,它可以帮助我们更好地理解大数据,从而作出更加准确的决策。在学习和实践Hadoop K-NN算法的过程中,我们需要注重算法的理论和实践结合,以便更好地理解算法的核心思想和应用场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值