K-最近相邻（1）

最新推荐文章于 2023-10-17 18:07:04 发布

kewing

最新推荐文章于 2023-10-17 18:07:04 发布

阅读量2.5k

点赞数

分类专栏： Python 文章标签：算法 input lambda 测试 random function

本文链接：https://blog.csdn.net/kewing/article/details/6172024

版权

Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

K最近邻算法基于实例的学习法，它假定实例可以被表示为欧氏空间中的点，即，可以由欧几里得距离求得两实例之间的距离，以此来确定所谓的K个最近邻（这在后面的算法中有所体现）。

对于每个实例，K最近邻并没有确定一个通用的目标函数好以之求得实例的目标值。而是，对不同的实例，根据其相邻的最近K个实例的不同而产生不同的目标函数。这就是基于实例的学习法。

为了描述方便，以下使用来自《Programing Collective Intelligence》中的葡萄酒例子。说是有葡萄酒，其价格收不同要素的影响，诸如等级，年代etc。我们已知一系列的葡萄酒的相关信息，要对价格建模并预测价格。

构造数据集

#chr08 -- numpredict.py from random import randint,random import math #---------------------------------------------------------------------- # 构造价格 def winprice(rating, age): """to construct price""" peak_age = rating - 50 # 根据等级计算价格 price = rating / 2 if age > peak_age: # 经过巅峰年，后续五年内其品质将变差 price = price * (5 - (age-peak_age)) else: # 价格在逼近巅峰年时会增加原值的5倍 price = price * (5*((age+1)/peak_age)) if price < 0: price = 0 return price #---------------------------------------------------------------------- # 构造价格集 def wineset(wine_num): """build the price set""" rows = [] for i in range(wine_num): # 随机生成年代和等级 rating = random() * 50 + 50 age = random() * 50 # 得到参考价格 price = winprice(rating, age) # 增加噪声 price *= random()*0.4 + 0.8 # 加入数据集 rows.append({'input':(rating,age), 'result':price}) return rows #====================================================================== # test: numpredict.py #====================================================================== if __name__ == '__main__': print( winprice(99.0, 1.0) )

所有数据均为随机生成。所构造的数据放置在一个字典中。

这是关于葡萄酒价格的一个字典。所构造的数据集如下：

[{'input': (98.29602476812006, 44.01823179710145), 'result': 245.6692612796455}, {'input': (80.33840526889543, 41.81735415220468), 'result': 0.0}]

这里的问题是，我们知道这么些关于葡萄酒年代，等级及其价格的数据，我们要预测其余的普通酒的价格。

我们通过寻找与当前所关注的商品情况相似的一组商品，对这些商品的价格求平均，进而进行价格预测。这就是：K-最近邻算法。

注意，从这里可以看出：

K-最近邻算法与其他机器学习方法有个显著的不同：K-最近邻算法算法对训练数据只是存储起来而不进行诸如对其训练以产生一个目标函数之类的。。当遇到新的查询实例时，一系列相似的实例被从存储器中取出，并用来分类新的查询实例。

嗯，从此也可以看出，K-最近邻算法的所有计算几乎都发生在分类实例时，因此，分类实例的计算开销会很大。。。（这是第一个不足）

听起来是很简单很直接的算法。

不过有个问题是：怎么取合适的K值？如果太小，那么价格通常是过于特殊的而与实际不符；如果太多则偏移太大。具体的解决方案参考本博中部

话题回来，为了计算“K-邻近”，我们首先要计算出这些个邻近的究竟是哪些条目（我们可以先假设一个k值，比如k==5）。

于是我们要计算不同样例之间的相似度。可以用欧几里得算法来计算。（实际上，K-最近邻算法假定所有实例均位于n维欧式空间内。这也即是K-最近邻算法的归纳偏置：。它的归纳偏置对应于假定：一个实例的分类x最相似于在欧氏空间中它附近的实例的分类。）

定义相似度：使用欧几里得距离

比如，我们这里的关于葡萄酒的价格即是2维欧式空间中的一个点。

这里要倒叙一下：我们的数据是个字典，其中有input和result两项，input是在该葡萄酒案例中决定葡萄酒价格的两个因素（相当于两个点）而result是价格。因此，我们判断的距离即是这些因素之间的距离。

看得出，在欧几里得算法中，所有因素的权值都是1，即，他们对结果的影响都是相同的。但实际上，这各个因素的权值未必就是相同的，比如，可能等级较之年代，对价格的影响更甚。

这是KNN算法的又一缺陷。

KNN

KNN算法较为简单，可以是：针对当前实例，确定其值为K个样例中最普遍的训练样例中的值；也可以是，K个样例的平均值。

这里采用求平均值的方法。（PS，记得前面说过，计算量是相当可观的。）

#---------------------------------------------------------------------- # 欧几里得算法计算相似度 def euclidean(v1, v2): """euclidean--Similarity""" d = 0.0 for i in range(len(v1)): d += (v1[i]-v2[i])**2 return math.sqrt(d) #---------------------------------------------------------------------- def getdistance(data, vec1): distancelist = [] for i in range(len(data)): vec2 = data[i]['input'] distancelist.append( (euclidean(vec1,vec2), i) ) distancelist.sort() return distancelist #---------------------------------------------------------------------- # KNN主体 def knnestimate(data, vec1, k=5): """KNN""" dlist = getdistance(data, vec1) avg = 0.0 # 对前K项结果求平均 for i in range(k): idx = dlist[i][1] avg += data[idx]['result'] avg /= k return avg #====================================================================== # test: numpredict.py #====================================================================== if __name__ == '__main__': # print( winprice(99.0, 1.0) ) data = wineset(200) # print(euclidean(data[0]['input'], data[1]['input'])) print( knnestimate(data, (95.0,3.0)) )

为取得这K个值，算法进行了一个sort操作。不知效率如何。。。

紧邻权重

对k-近邻算法的一个显而易见的改进是对k个近邻的贡献加权，根据它们相对查询点x q 的距离，将较大的权值赋给较近的近邻。

在此例中，不同距离的邻居对最终价格的影响程度理应是不同的。于是我们要为不同距离的邻居赋予不同的权值。他们之间的距离可以很方便的算出，于是本质上，我们只需找到一种方法将距离上的差距转化为权重就可以了。

方法有很多。

反函数

#---------------------------------------------------------------------- # 紧邻权重 def inverseweight(dist, num=1.0, const=0.1): """inverse function for weighted neighbors""" return num/(dist+const)

num是计算倒数的分子。应该注意的是const，const是为了避免算法为很紧邻或相似项赋予过大的权重。（因为距离很近，则dist会很小，其倒数必然很大甚至是无穷大。。。）

注意inverseweight中，可能存在两个实例完全相同的情况，那么此时的dist可能为0，但由于我们的分母是：dist+const，因此不会引发异常。

反函数的问题在于：反函数倾向于为很紧邻赋予很大的权重而为稍远的赋予较小的权重，且，权重的变化很大。如此，可能算法对噪声会变得过于敏感。

减法函数

#---------------------------------------------------------------------- def subtractweight(dist, const=1.0): """subtraction function for weighted neighbors""" if dist > const: return 0 else: return const - dist

该算法虽然克服了反函数的紧邻权重过大的缺陷，但因为权重最终会跌至0，如距离足够大而const足够小，那么可能关于权重的计算没有任何意义（因为权重总为0），或根本找不到合适的权重。

高斯函数

高斯函数有效的克服了上述不足。

#---------------------------------------------------------------------- def gaussian(dist, sigma=10.0): """gaussian function for weighted neighbors""" return math.e**(-dist**2/(2*sigma**2))

说明：该函数来自《集体智慧编程》一书。根据查到的高斯函数资料，个人觉得这算法貌似有问题。。。

加权KNN

#---------------------------------------------------------------------- # Gaussian-based KNN def weightedKNN(data, vec1, k=5, weightedfunc=gaussian): """weighted KNN""" # 得到距离 dlist = getdistance(data, vec1) avg = 0.0 totalweight = 0.0 # 得到加权平均 for i in range(k): dist = dlist[i][0] idx = dlist[i][1] weight = weightedfunc(dist) avg += weight*data[idx]['result'] totalweight += weight avg /= totalweight return avg

算法求的是加权平均。

我们应该要注意，如果在weightedKNN和knnestimate中，算出某一个dist为0，那么我们应该直接让程序返回该项的值。（这表明训练数据中有一项和该实例是相等的，那么价格也理应相同。）

测试一下：

结果是：

31.2838056203

30.1185287381

以上k-近邻算法的所有变体都只考虑k个近邻以分类查询点。如果使用按距离加权，那么允许所有的训练样例影响x q 的分类事实上没有坏处，因为非常远的实例对结构的影响很小。

交叉验证

那，我并不知道这样的结果哪一个更正确，甚至我不知道是否算法weightedKNN所得到的就是更精确的结果。我们使用交叉验证来做测试（交叉验证会在以后的算法中大量使用）。

首先将数据进行拆分，为训练数据和测试数据。

（该代码参考自《集体智慧编程》一书，个人觉得不太多。按作者原意，是要将数据拆为5%的测试数据和95%的训练数据，但这里貌似是在用一个概率值判断是否进行拆分，这样应该无法保证合理的拆分吧。。。也许这里的原意就是：按照某个概率来拆分数据而不是将数据拆分为百分之几的百分之几。。。）

整个交叉验证过程如下：

#---------------------------------------------------------------------- # 交叉验证 def dividedata(data, test=0.05): """Cross--Validation""" trainset = [] testset = [] for row in data: if random() < test: testset.append(row) else: trainset.append(row) return trainset,testset #---------------------------------------------------------------------- def testalgorithm(algf, trainset, testset): """test function""" error = 0 for row in testset: guess = algf(trainset, row['input']) error += (row['result']-guess)**2 return error/len(testset) #---------------------------------------------------------------------- def crossvalidate(algf, data, trials=100, test=0.05): """test control""" error = 0 for i in range(trials): trainset,testset = dividedata(data, test) error += testalgorithm(algf, trainset, testset) return error/trials

我们的测试样例（我们要测试的是算法crossvalidate的k值，即上文提到的“什么样的K才是最合适的？”）：

#====================================================================== # test: numpredict.py #====================================================================== if __name__ == '__main__': # print( winprice(99.0, 1.0) ) data = wineset(200) # print(euclidean(data[0]['input'], data[1]['input'])) # print( knnestimate(data, (99.0,5.0)) ) # print( weightedKNN(data, (99.0,5.0)) ) knn5 = lambda d,v: knnestimate(d, v, k=5) knn3 = lambda d,v: knnestimate(d, v, k=3) knn1 = lambda d,v: knnestimate(d, v, k=1) print( crossvalidate(knn5, data) ) print( crossvalidate(knn3, data) ) print( crossvalidate(knn1, data) )

注意算法的流程、在crossvalidate中，我们进行trials次的测试。每次会从已知的样例集中划分训练集合测试集（注意，这里无论是训练集还是测试集本质上都是样例集，都是已知数据，我们所进行的测试是：将一大部分样例作为训练集来训练学习器，而将另外的一部分作为测试数据来测试学习器，对学习器给出的答案与这些数据中存在的答案（因为这些测试数据也是已知的样例集）进行比较从而得到一个相关的比较结果，这点很重要），并累加testalgorithm返回值，最后return一个关于trials的平均值。

在testalgorithm中，我们对testset中的每一条数据（该数据包括input和result两部分）用K-最近邻算法（K是我们本次摇测试的一个K值，比如3），求得其result（实际该result是存在的），我们再与实际的result比较（这样就能知道此处算法是否正确，误差是多少？），并将二者的误差放大并进行累加，这样，总体的效果就是：crossvalidate的返回值越大，则误差越多，K算法的正确率越低，本次测试项目的表现越差。

比如，关于K值的测试中，我的测试结果是：

>>> ================================ RESTART ================================ >>> 848.864845834 659.644415346 584.167746076 >>> ================================ RESTART ================================ >>> 686.534066204 625.283890391 789.5196731 >>> ================================ RESTART ================================ >>> 889.768862534 711.135106267 912.276428853 >>> ================================ RESTART ================================ >>> 695.48733688 610.963052408 593.486657655 >>> ================================ RESTART ================================ >>> 654.524496898 620.091677277 846.300990567

这说明，当K取值为3左右时，所得的效果最佳。注意，由于我们的训练集合测试集的划分是基于概率的，因此，多进行几次的测试是必要的。

这下可以解答上面提出的关于knnestimate和weightedKNN的比较了。

KNN = lambda d,v: knnestimate(d, v, k=3) WKNN = lambda d,v: weightedKNN(d, v, k=3) kdic = { KNN:'KNN', WKNN:'WKNN' } for i in range(10): li = { crossvalidate(kfunc, data):kdic[kfunc] for kfunc in kdic.keys() } print( li, '/n', min(li.keys()), li[min(li.keys())], '/n')

结果是：

{932.6662536070694: 'KNN', 723.7638541394067: 'WKNN'} 723.763854139 WKNN {723.760029525893: 'WKNN', 1011.1907547077404: 'KNN'} 723.760029526 WKNN {651.4018787968344: 'WKNN', 726.1798084878616: 'KNN'} 651.401878797 WKNN {898.5896521265854: 'KNN', 770.5010255590349: 'WKNN'} 770.501025559 WKNN {922.7345255738264: 'KNN', 871.363394764739: 'WKNN'} 871.363394765 WKNN {741.7349259309001: 'WKNN', 1017.5700328790517: 'KNN'} 741.734925931 WKNN {1140.1228194074831: 'WKNN', 876.6839750043165: 'KNN'} 876.683975004 KNN {1049.1652269130534: 'KNN', 1106.875778138764: 'WKNN'} 1049.16522691 KNN {816.4239091512535: 'KNN', 945.655290055345: 'WKNN'} 816.423909151 KNN {941.7806799914232: 'KNN', 1024.5018004204712: 'WKNN'} 941.780679991 KNN

可以看出：weightedKNN确实好过knnestimate。（但也没有想象中的好。。。）

补：

从这里的测试中，学到：

1.Python中定义的函数均有一内建的__name__属性，但lambda没有，lambda的原意即是：“匿名函数”，因此lambda函数的__name__ == 'lambda'

2.关于字典取值

字典中，可以通过键获取值，但不能通过值获取键。因此，这里的kdic不能定义做kdic = { 'KNN':KNN, 'WKNN':WKNN }，因为后面可能发生以值取键的错误

3.字典是{}，列表是[]，元组是()，集合是{}

另，WingIDE写代码确实爽，不过总觉得IDE占的屏幕太大，导致代码可视区小，这可能是所有IDE的通病了。而且总不习惯在WingIDE里调试，还是喜欢用最简单的IDLE来调试。。。