白手起家学习数据科学 ——k-Nearest Neighbors之“背后的思想”(九)

设想一下,你正在预测接下来总统选举”我将要选择谁”,如果你不知道关于我的任何信息,一个合乎情理的方法是看我的邻居计划投谁,我们居住在西雅图,我的邻居一定按着计划投给Democratic候选人,这个暗示”Democratic候选人”对我也是个不错的猜想。

设想你知道更多关于我的信息,而不只是地理信息,也许你知道我的年龄、收入、我有几个孩子等等,这些特性扩大了影响我的行为,观察跟我这些特性相似的邻居们做出的选择,来预测我的选择,比观察我的所有邻居要更加靠谱,这个思想就是最近邻分类器(nearest neighbors classification)。

模型(The Model)

最近邻模型是最简单预测模型之一,它没有数学假设,不需要任何排序,只需要一下两点:
* 距离的概念;
* 假设一个点和另外一个临近的点是相似的。

我们在整个章节中所看到的大多数技术都是对覆盖整个数据集上,目的在数据集上学习模型。然而另一方面,最近邻有意识的忽略了很多信息,这是因为,每个新的点预测只依赖离它最近的极少数点。

而且,最近邻模型不可能让你理解你正在观察的现象(特征)为什么驱动模型选择这样一个结果。基于我的邻居的投票来预测我的投票,不会告诉你是什么原因引起我的投票方式。

一般情况,我们有一些数据点并且这些数据点对应着标签,这些标签可能是True或者False,暗示每个输入满足一定条件下为”是垃圾邮件”或者”是有毒的”,或者是一些名目属性标签,像电影的评级(G,PG,PG-13,NC-17)。或者是总统候选人的名字,或者是最喜爱的程序语言。

在我们的例子中,数据点是一些向量,这个意味着我们可以使用距离函数(线性代数篇中有介绍)。

为了做这个,我们需要一个函数计数投票结果:

def raw_majority_vote(labels):
    votes = Counter(labels)
    winner, _ = votes.most_common(1)[0]
    return winner

但是这个没有做任何智能的绑定。例如,设想一下我们正在评级电影,5个电影评级为G,G,PG,PG和R,那么G有2个票数,PG也有2个票数,这种情况下,我们有几个选择:
* 随机选择其中一个;
* 根据距离加权重,选择距离大的为winner;
* 减少k值,直到我们找到唯一的winner。

我们会实现第3种方法:

def majority_vote(labels):
    """assumes that labels are ordered from nearest to farthest"""
    vote_counts = Counter(labels)
    winner, winner_count = vote_counts.most_common(1)[0]
    num_winners = len([count
                    for count in vote_counts.values()
                    if count == winner_count])

    if num_winners == 1:
        return winner # unique winner, so return it
    else:
        return majority_vote(labels[:-1]) # try again without the farthest

这个方法很有效,因此,在最坏的情况下,我们一直去掉一个数据点,直到最后只有一个label赢了:

def knn_classify(k, labeled_points, new_point):
    """each labeled point should be a pair (point, label)"""

    # order the labeled points from nearest to farthest
    by_distance = sorted(labeled_points,

    # find the labels for the k closest
    k_nearest_labels = [label for _, label in by_distance[:k]]

    # and let them vote
    return majority_vote(k_nearest_labels)

接下来,让我们看如何在实际中应用它。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值