KNN算法及可视化
KNN,即K近邻法(k-nearst neighbors),这种算法把要分类的对象(例如一个特征向量)与训练集中已知类标记的所有对象进行比较,并由k近邻(所谓的k最近邻,就是指最接近的k个邻居(数据),即每个样本都可以由它的K个邻居来表达)对指派到哪个类进行投票。这种方法通常分类效果较好,但是也有很多弊端,与k-means聚类算法一样,需要预先设定k值,k值的选择会影响分类的性能。此外,这种方法要求将整个训练集存储起来,如果训练集非常大,搜索速度慢。
KNN算法的核心思想是,在一个含未知样本的空间,可以根据离这个样本最邻近的k个样本的数据类型来确定样本的数据类型。
KNN优点
1、简单直观,无需拟合参数,在样本本身区分度较高的时候效果会很不错
既可以用来做分类,包括非线性分类,也可以用来做回归
2、训练时间复杂度比支持向量机之类的算法低,为O(n)
3、准确度高,对异常点不敏感
4、该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分
KNN 缺点
1、当样本量大的时候,特征数多,找出K个最邻近点的计算代价会很大,会导致算法很慢,
2、样本不平衡的时候,对稀有类别的预测准确率低
3、相比决策树模型,KNN模型可解释性不强
Dense-SIFT
在之前的文章里面已经详细介绍过sift的原理
SIFT算法详解
现在我们来介绍一下sift算法的进阶版—dense sift
Densen sift, 即稠密sift,Dense-SIFT是sift的密集采样板,由于SIFT的实时性差,目前特征提取多采用密集采样,该算法首先将表达目标的矩形区域分成相同大小的矩形块,计算每一个小块的SIFT特征,再对各个小块的稠密SIFT特征在中心位置进行采样,建模目标的表达.然后度量两个图像区域的不相似性,先计算两个区域对应小块的Bhattacharyya距离,再对各距离加权求和作为两个区域间的距离.因为目标所在区域靠近边缘的部分可能受到背景像素的影响,而区域的内部则更一致,所以越靠近区域中心权函数的值越大.最后提出了能适应目标尺度变化的跟踪算法.
实现KNN数据分类
我们首先建立一些简单的二维示例数据集来说明并可视化分类器的原理,这段代码将创建两个不同的二维点集
# -*- coding: utf-8 -*-
from numpy.random import randn
import pickle
from pylab import *
# create sample data of 2D points
n = 200
# two normal distributions
class_1 = 0.6 * randn(n,2)
class_2 = 1.2 * randn(n,2) + array([5,1])
labels = hstack((ones(n),-ones(n)))
# save with Pickle
#with open('points_normal.pkl', 'w') as f:
with open('points_normal_test.pkl', 'wb') as f:
pickle.dump(class_1,f)
pickle.dump(class_2,f)
pickle.dump(labels,f)
# normal distribution and ring around it
print ("save OK!")
class_1 = 0.6 * randn(n,2)
r = 0.8 * randn(n,1) + 5
angle = 2*pi * randn(n,1)
class_2 = hstack((r*cos(angle),r*sin(angle)))
labels = hstack((ones(n),-ones(n)))
# save with Pickle
#with open('points_ring.pkl', 'w