学习OpenCV——KNN算法

最新推荐文章于 2024-01-31 17:16:38 发布

在河之洲

最新推荐文章于 2024-01-31 17:16:38 发布

阅读量761

点赞数

分类专栏： opencv学习学习opencv 文章标签： KNN算法 oepncv

opencv学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

学习opencv

5 篇文章 2 订阅

订阅专栏

转自

文本分类中KNN算法，该方法的思路非常简单直观：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。因此，采用这种方法可以较好地避免样本的不平衡问题。另外，由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说， KNN方法较其他方法更为适合。
该方法的不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。另外还有一种Reverse KNN法，能降低KNN算法的计算复杂度，提高分类的效率。
该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。
k近邻分类器具有良好的文本分类效果，对仿真实验结果的统计分析表明:作为文本分类器，k近邻仅次于支持向量机，明显优于线性最小二乘拟合、朴素贝叶斯和神经网络。
重点：
1：特征降维（一般用CHI方法）
2：截尾算法（三种截尾算法）
3：降低计算量
演示代码：

#include "ml.h"   
#include "highgui.h"     
int main( int argc, char** argv )   
{       
    const int K = 10;       
    int i, j, k, accuracy;       
    float response;       
    int train_sample_count = 100;       
    CvRNG rng_state = cvRNG(-1);//初始化随机数生成器状态      
    CvMat* trainData = cvCreateMat( train_sample_count, 2, CV_32FC1 );       
    CvMat* trainClasses = cvCreateMat( train_sample_count, 1, CV_32FC1 );       
    IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );       
    float _sample[2];       
    CvMat sample = cvMat( 1, 2, CV_32FC1, _sample );       
    cvZero( img );    

    CvMat trainData1, trainData2, trainClasses1, trainClasses2;      

    // form the training samples       
    cvGetRows( trainData, &trainData1, 0, train_sample_count/2 ); //返回数组的一行或在一定跨度内的行      
    cvRandArr( &rng_state, &trainData1, CV_RAND_NORMAL, cvScalar(200,200), cvScalar(50,50) ); //用随机数填充数组并更新 RNG 状态       

    cvGetRows( trainData, &trainData2, train_sample_count/2, train_sample_count );       
    cvRandArr( &rng_state, &trainData2, CV_RAND_NORMAL, cvScalar(300,300), cvScalar(50,50) );    

    cvGetRows( trainClasses, &trainClasses1, 0, train_sample_count/2 );       
    cvSet( &trainClasses1, cvScalar(1) );       

    cvGetRows( trainClasses, &trainClasses2, train_sample_count/2, train_sample_count );       
    cvSet( &trainClasses2, cvScalar(2) );     

    // learn classifier       
    CvKNearest knn( trainData, trainClasses, 0, false, K );      
    CvMat* nearests = cvCreateMat( 1, K, CV_32FC1);    

    for( i = 0; i < img->height; i++ )       
    {           
        for( j = 0; j < img->width; j++ )           
        {               
            sample.data.fl[0] = (float)j;               
            sample.data.fl[1] = (float)i;     

            // estimates the response and get the neighbors' labels               
            response = knn.find_nearest(&sample,K,0,0,nearests,0);        

            // compute the number of neighbors representing the majority               
            for( k = 0, accuracy = 0; k < K; k++ )               
            {                   
                if( nearests->data.fl[k] == response)                       
                    accuracy++;               
            }     

            // highlight the pixel depending on the accuracy (or confidence)               
            cvSet2D( img, i, j, response == 1 ?                   
                (accuracy > 5 ? CV_RGB(180,0,0) : CV_RGB(180,120,0)) :                   
                (accuracy > 5 ? CV_RGB(0,180,0) : CV_RGB(120,120,0)) );           
        }       
    }         

    // display the original training samples       
    for( i = 0; i < train_sample_count/2; i++ )       
    {           
        CvPoint pt;           
        pt.x = cvRound(trainData1.data.fl[i*2]);           
        pt.y = cvRound(trainData1.data.fl[i*2+1]);           
        cvCircle( img, pt, 2, CV_RGB(255,0,0), CV_FILLED );    

        pt.x = cvRound(trainData2.data.fl[i*2]);           
        pt.y = cvRound(trainData2.data.fl[i*2+1]);           
        cvCircle( img, pt, 2, CV_RGB(0,255,0), CV_FILLED );       
    }        
    cvNamedWindow( "classifier result", 1 );       
    cvShowImage( "classifier result", img );       
    cvWaitKey(0);        
    cvReleaseMat( &trainClasses );       
    cvReleaseMat( &trainData );       
    return 0;   
}

详细说明：
改进的KNN：

在河之洲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习OpenCV——KNN算法

转自文本分类中KNN算法，该方法的思路非常简单直观：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。因此，采用这种方法可以较好地避免样本的不平衡问题。另外，由于KN
复制链接

扫一扫