KNN算法可视化
KNN(K-Neareast Neighbor,K邻近分类法),这种算法是先将训练集中的对象标记好类别,然后把要分类的对象与训练集中的标记好的对象进行对比,并由k近邻对指派到哪个类进行投票。
这种算法需要预先设定k值,k值的选择会影响分类的性能;并且这种算法要求将整个训练集存储起来,如果训练集非常大,搜索起来就非常慢。但是这种算法在采用何种距离度量方面是没有限制的。
from numpy.random import randn
import pickle
from pylab import *
n = 200
# two normal distributions
class_1 = 0.6 * randn(n,2)
class_2 = 1.2 * randn(n,2) + array([1,6])
labels = hstack((ones(n),-ones(n)))
# save with Pickle
#with open('points_normal.pkl', 'w') as f:
with open('points_normal_test.pkl', 'wb') as f:
pickle.dump(class_1,f)
pickle.dump(class_2,f)
pickle.dump(labels,f)
# normal distribution and ring around it
print ("save OK!")
class_1 = 0.2 * randn(n,2)
r = 0.9 * randn(n,1) + 6
angle = 2.5*pi * randn(n,1)
class_2 = hstack((r*cos(angle)/2,r*sin(angle)/4))
labels = hstack((ones(n),-ones(n)))
# save with Pickle
#with open('points_ring.pkl', 'w') as f:
with open('points_ring_test.pkl', 'wb') as f:
pickle.dump(class_1,f)
pickle.dump(class_2,f)
pickle.dump(labels,f)
print ("save OK!")
上述代码创建了两个不同的二维点集,每个点集有两类。
第一个二维点集中的class_1的数据集原本是200行2列的随机正态分布数据,之后将每个数据缩小了0.6倍。class_2的数据集原本是200行2列的随机正态分布数据,之后将每个数据扩大了1.2倍,再将第一列的数据加上1,第二列的数据加上2。将前200个数据标签设置为1,后200个数据标签设置为-1。
第二个二维点集中的class_1的数据集200行2列的随机正态分布数据,之后将每个数据缩小了0.2倍。class_2数据集是类似于长轴长度为2,短轴长度为根号2的椭圆的分布形状。将前200个数据标签设置为1,后200个数据标签设置为-1。
import pickle
from pylab import *
from PCV.classifiers import knn
from PCV.tools import imtools
pklist=['points_normal.pkl','points_ring.pkl']
figure()
# load 2D points using Pickle
for i, pklfile in enumerate(pklist):
with op