KNN算法
什么是KNN算法
KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一。KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了。KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。
如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。
KNN算法原理
通用步骤
- 计算距离
- 升序排列
- 取前K个
- 加权平均
K值的选取
我们知道K的取值比较重要,那么该如何确定K取多少值好呢?答案是通过交叉验证(将样本数据按照一定比例,拆分出训练用的数据和验证用的数据,比如6:4拆分出部分训练数据和验证数据),从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。
通过交叉验证计算方差后你大致会得到下面这样的图:
这个图其实很好理解,当你增大k的时候,一般错误率会先降低,因为有周围更多的样本可以借鉴了,分类效果会变好。但注意,和K-means不一样,当K值更大的时候,错误率会更高。这也很好理解,比如说你一共就35个样本,当你K增大到30的时候,KNN基本上就没意义了。
所以选择K点的时候可以选择一个较大的临界K点,当它继续增大或减小的时候,错误率都会上升,比如图中的K=10。
KNN算法实战应用
1.读取数据
import csv
with open('Prostate_Cancer.csv','r') as file:
reader=csv.DictReader(file)
datas=[row for row in reader]
2.分组
将前1/3的数据作为测试数据,后2/3的数据作为训练数据
random.shuffle(datas)
n=len(datas)//3
test_set=datas[0:n]
train_set=datas[n:]
3.计算距离
def distance(d1,d2):
res=0
for key in("radius", "texture", "perimeter", "area", "smoothness", "compactness", "symmetry", "fractal_dimension"):
res+=(float(d1[key])-float(d2[key]))**2
return res**0.5
4.根据距离进行升序排序,并进行加权平均计算
k=5
def knn(data):
res=[
{"result":train['diagnosis_result'], "distance":distance(data,train)}
for train in train_set
]
res=sorted(res, key=lambda item:item['distance'])
res2=res[0:k]
result={'B':0, 'M':0}
sum=0
for r in res2:
sum+=r['distance']
for r in res2:
result[r['result']]+=1-r['distance']/sum
if result['B']>result['M']:
return 'B'
else:
return 'M'
5.对数据进行测试,输出结果
correct=0
for test in test_set:
result=test['diagnosis_result']
result2=knn(test)
if result==result2:
correct+=1
print("准确率: {:.2f}%".format(100*correct/len(test_set)))
KNN算法优缺点
KNN算法优点
1.简单易用,相比其他算法,KNN算是比较简洁明了的算法。即使没有很高2.的数学基础也能搞清楚它的原理。
3.模型训练时间快,上面说到KNN算法是惰性的,这里也就不再过多讲述。
4.预测效果好。
5.对异常值不敏感
KNN算法缺点
1.对内存要求较高,因为该算法存储了所有训练数据
2.预测阶段可能很慢
3.对不相关的功能和数据规模敏感
完整代码
import random
import csv
with open('Prostate_Cancer.csv','r') as file:
reader=csv.DictReader(file)
datas=[row for row in reader]
random.shuffle(datas)
n=len(datas)//3
test_set=datas[0:n]
train_set=datas[n:]
def distance(d1,d2):
res=0
for key in("radius", "texture", "perimeter", "area", "smoothness", "compactness", "symmetry", "fractal_dimension"):
res+=(float(d1[key])-float(d2[key]))**2
return res**0.5
k=5
def knn(data):
res=[
{"result":train['diagnosis_result'], "distance":distance(data,train)}
for train in train_set
]
res=sorted(res, key=lambda item:item['distance'])
res2=res[0:k]
result={'B':0, 'M':0}
sum=0
for r in res2:
sum+=r['distance']
for r in res2:
result[r['result']]+=1-r['distance']/sum
if result['B']>result['M']:
return 'B'
else:
return 'M'
correct=0
for test in test_set:
result=test['diagnosis_result']
result2=knn(test)
if result==result2:
correct+=1
print("准确率: {:.2f}%".format(100*correct/len(test_set)))