白手起家学习数据科学 ——k-Nearest Neighbors之“背后的思想”(九)_数据科学 neighbors, and classification-CSDN博客

设想一下，你正在预测接下来总统选举”我将要选择谁”，如果你不知道关于我的任何信息，一个合乎情理的方法是看我的邻居计划投谁，我们居住在西雅图，我的邻居一定按着计划投给Democratic候选人，这个暗示”Democratic候选人”对我也是个不错的猜想。

设想你知道更多关于我的信息，而不只是地理信息，也许你知道我的年龄、收入、我有几个孩子等等，这些特性扩大了影响我的行为，观察跟我这些特性相似的邻居们做出的选择，来预测我的选择，比观察我的所有邻居要更加靠谱，这个思想就是最近邻分类器(nearest neighbors classification)。

模型(The Model)

最近邻模型是最简单预测模型之一，它没有数学假设，不需要任何排序，只需要一下两点：
* 距离的概念；
* 假设一个点和另外一个临近的点是相似的。

我们在整个章节中所看到的大多数技术都是对覆盖整个数据集上，目的在数据集上学习模型。然而另一方面，最近邻有意识的忽略了很多信息，这是因为，每个新的点预测只依赖离它最近的极少数点。

而且，最近邻模型不可能让你理解你正在观察的现象(特征)为什么驱动模型选择这样一个结果。基于我的邻居的投票来预测我的投票，不会告诉你是什么原因引起我的投票方式。

一般情况，我们有一些数据点并且这些数据点对应着标签，这些标签可能是True或者False，暗示每个输入满足一定条件下为”是垃圾邮件”或者”是有毒的”，或者是一些名目属性标签，像电影的评级(G,PG,PG-13,NC-17)。或者是总统候选人的名字，或者是最喜爱的程序语言。

在我们的例子中，数据点是一些向量，这个意味着我们可以使用距离函数(线性代数篇中有介绍)。

为了做这个，我们需要一个函数计数投票结果：

def raw_majority_vote(labels):
    votes = Counter(labels)
    winner, _ = votes.most_common(1)[0]
    return winner

但是这个没有做任何智能的绑定。例如，设想一下我们正在评级电影，5个电影评级为G,G,PG,PG和R，那么G有2个票数，PG也有2个票数，这种情况下，我们有几个选择：
* 随机选择其中一个；
* 根据距离加权重，选择距离大的为winner；
* 减少k值，直到我们找到唯一的winner。

我们会实现第3种方法：

def majority_vote(labels):
    """assumes that labels are ordered from nearest to farthest"""
    vote_counts = Counter(labels)
    winner, winner_count = vote_counts.most_common(1)[0]
    num_winners = len([count
                    for count in vote_counts.values()
                    if count == winner_count])

    if num_winners == 1:
        return winner # unique winner, so return it
    else:
        return majority_vote(labels[:-1]) # try again without the farthest

这个方法很有效，因此，在最坏的情况下，我们一直去掉一个数据点，直到最后只有一个label赢了：

def knn_classify(k, labeled_points, new_point):
    """each labeled point should be a pair (point, label)"""

    # order the labeled points from nearest to farthest
    by_distance = sorted(labeled_points,

    # find the labels for the k closest
    k_nearest_labels = [label for _, label in by_distance[:k]]

    # and let them vote
    return majority_vote(k_nearest_labels)

接下来，让我们看如何在实际中应用它。