K Nearest Neighbors
计算待测数据与样本库中每个样本的距离,得到距离最小的前K个,进行投票表决,前K个中某一类的样本数最多,则判断待测数据为此类。
一、opencv 中主要的函数有:
(1)CvKNearest::train 训练KNN模型
- bool CvKNearest::train( const CvMat* _train_data, const CvMat* _responses,
- const CvMat* _sample_idx=0, bool is_regression=false,
- int _max_k=32, bool _update_base=false );
这个类的方法训练K近邻模型。它遵循一个一般训练方法约定的限制:只支持CV_ROW_SAMPLE数据格式,输入向量必须都是有序的,而输出可以是 无序的(当is_regression=false),可以是有序的(is_regression=true)。并且变量子集和省略度量是不被支持的。
参数_max_k 指定了最大邻居的个数,它将被传给方法find_nearest。参数 _update_base 指定模型是由原来的数据训练(_update_base=false),还是被新训练数据更新后再训练(_update_base=true)。在后一种情况下_max_k 不能大于原值, 否则它会被忽略。
(2)CvKNearest::find_nearest 寻找输入向量的最近邻
- float CvKNearest::find_nearest( const CvMat* _samples, int k, CvMat* results=0,
- const float** neighbors=0, CvMat* neighbor_responses=0, CvMat* dist=0 ) const;
对每个输入向量(表示为matrix_sample的每一行),该方法找到k(k≤get_max_k() )个最近邻。在回归中,预测结果将是指定向量的近邻的响应的均值。在分类中,类别将由投票决定。
对传统分类和回归预测来说,该方法可以有选择的返回近邻向量本身的指针(neighbors, array of k*_samples->rows pointers),它们相对应的输出值(neighbor_responses, a vector of k*_samples->rows elements) ,和输入向量与近邻之间的距离(dist, also a vector of k*_samples->rows elements)。
对每个输入向量来说,近邻将按照它们到该向量的距离排序。
对单个输入向量,所有的输出矩阵是可选的,而且预测值将由该方法返回。
二、CvMat用法
CvMat* trainData;//存储样本数据
CvMat* trainClasses;//存储类的标号
int totalTrainNum;//总训练样本数
int featureNum;//训练样本维数
trainData = cvCreateMat( totalTrainNum, featureNum, CV_32FC1 );
trainClasses = cvCreateMat( totalTrainNum, 1, CV_32FC1 );
cvmSet(trainClasses,i,0,1); //设置cvMat第几行第几列的某个数为
得到判断结果和准确度计算如下:
//其中test为待测数据的特征向量
- CvMat* nearest=cvCreateMat(1,K,CV_32FC1);
- float result=knn->find_nearest(test,K,0,0,nearest,0); //所得结果
- int accuracy=0;//前K个样本中属于此类的样本数
- for(int i=0;i<K;i++){
- if( nearest->data.fl[i] == result)
- accuracy++;
- }
- float pre=100*((float)accuracy/(float)K); //准确度
- printf("|\t%.0f\t| \t%.2f%% \t| \t%d of %d \t| \n",result,pre,accuracy,K);