学习OpenCV——KNN算法

本文介绍了KNN算法的基本原理及其在文本分类任务中的应用。KNN算法通过计算未知样本与已知样本间的距离,选取最邻近的K个样本进行类别决策。文章强调了特征降维的重要性,并提供了C语言实现的示例代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转自:http://blog.csdn.net/lyflower/article/details/1728642

 

文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

   KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。

   该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

   该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

k近邻分类器具有良好的文本分类效果,对仿真实验结果的统计分析表明:作为文本分类器,k近邻仅次于支持向量机,明显优于线性最小二乘拟合、朴素贝叶斯和神经网络。

重点:

1:特征降维(一般用CHI方法)

2:截尾算法(三种截尾算法)

3:降低计算量

演示代码:

#include "ml.h" 
#include "highgui.h"   
int main( int argc, char** argv ) 
{     
	const int K = 10;     
	int i, j, k, accuracy;     
	float response;     
	int train_sample_count = 100;     
	CvRNG rng_state = cvRNG(-1);//初始化随机数生成器状态    
	CvMat* trainData = cvCreateMat( train_sample_count, 2, CV_32FC1 );     
	CvMat* trainClasses = cvCreateMat( train_sample_count, 1, CV_32FC1 );     
	IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );     
	float _sample[2];     
	CvMat sample = cvMat( 1, 2, CV_32FC1, _sample );     
	cvZero( img );  

	CvMat trainData1, trainData2, trainClasses1, trainClasses2;    

	// form the training samples     
	cvGetRows( trainData, &trainData1, 0, train_sample_count/2 ); //返回数组的一行或在一定跨度内的行    
	cvRandArr( &rng_state, &trainData1, CV_RAND_NORMAL, cvScalar(200,200), cvScalar(50,50) ); //用随机数填充数组并更新 RNG 状态     

	cvGetRows( trainData, &trainData2, train_sample_count/2, train_sample_count );     
	cvRandArr( &rng_state, &trainData2, CV_RAND_NORMAL, cvScalar(300,300), cvScalar(50,50) );  

	cvGetRows( trainClasses, &trainClasses1, 0, train_sample_count/2 );     
	cvSet( &trainClasses1, cvScalar(1) );     

	cvGetRows( trainClasses, &trainClasses2, train_sample_count/2, train_sample_count );     
	cvSet( &trainClasses2, cvScalar(2) );   

	// learn classifier     
	CvKNearest knn( trainData, trainClasses, 0, false, K );    
	CvMat* nearests = cvCreateMat( 1, K, CV_32FC1);  

	for( i = 0; i < img->height; i++ )     
	{         
		for( j = 0; j < img->width; j++ )         
		{             
			sample.data.fl[0] = (float)j;             
			sample.data.fl[1] = (float)i;   

			// estimates the response and get the neighbors' labels             
			response = knn.find_nearest(&sample,K,0,0,nearests,0);      

			// compute the number of neighbors representing the majority             
			for( k = 0, accuracy = 0; k < K; k++ )             
			{                 
				if( nearests->data.fl[k] == response)                     
					accuracy++;             
			}   

			// highlight the pixel depending on the accuracy (or confidence)             
			cvSet2D( img, i, j, response == 1 ?                 
				(accuracy > 5 ? CV_RGB(180,0,0) : CV_RGB(180,120,0)) :                 
				(accuracy > 5 ? CV_RGB(0,180,0) : CV_RGB(120,120,0)) );         
		}     
	}       
	
	// display the original training samples     
	for( i = 0; i < train_sample_count/2; i++ )     
	{         
		CvPoint pt;         
		pt.x = cvRound(trainData1.data.fl[i*2]);         
		pt.y = cvRound(trainData1.data.fl[i*2+1]);         
		cvCircle( img, pt, 2, CV_RGB(255,0,0), CV_FILLED );  

		pt.x = cvRound(trainData2.data.fl[i*2]);         
		pt.y = cvRound(trainData2.data.fl[i*2+1]);         
		cvCircle( img, pt, 2, CV_RGB(0,255,0), CV_FILLED );     
	}      
	cvNamedWindow( "classifier result", 1 );     
	cvShowImage( "classifier result", img );     
	cvWaitKey(0);      
	cvReleaseMat( &trainClasses );     
	cvReleaseMat( &trainData );     
	return 0; 
} 

 

详细说明: http://www.cnblogs.com/xiangshancuizhu/archive/2011/08/06/2129355.html
改进的KNN: http://www.cnblogs.com/xiangshancuizhu/archive/2011/11/11/2245373.html
### 基于KNN算法的图像识别实现 #### 读取图片文件、展示图片及部分采样 对于图像识别任务中的第一步,即读取图片文件、展示图片以及进行部分采样,通常会利用Python编程语言及其丰富的库支持来完成这些操作。具体来说,`matplotlib.pyplot`用于显示图像;而`cv2.imread()`函数来自OpenCV库,则负责加载图像文件[^1]。 ```python import cv2 from matplotlib import pyplot as plt def load_and_show_image(image_path): img = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE) # 加载灰度图 plt.imshow(img, cmap='gray') plt.axis('off') # 不显示坐标轴 plt.show() ``` 为了提高计算效率,在处理大型数据集时会对样本数量做出一定限制——这就是所谓的“部分采样”。可以通过随机选取子集的方式减少参与训练的数据量,从而降低时间成本的同时不影响整体效果显著性。 #### 使用KNN算法识别图片 当涉及到具体的分类工作时,Scikit-Learn提供了非常便捷的方法构建KNN模型: ```python from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) knn_classifier = KNeighborsClassifier(n_neighbors=k_value) knn_classifier.fit(X_train, y_train) predictions = knn_classifier.predict(X_test) ``` 这里的关键在于调整邻居数(`n_neighbors`)这一超参数以获得最佳性能表现。此外,考虑到原始输入可能具有较高的维度特性(比如彩色照片),因此有必要引入降维手段简化后续分析过程。 #### 应用PCA技术进行降维 主成分分析(Principal Component Analysis, PCA)是一种常用的线性变换方法,它能够有效地压缩多变量数据集至更低维度的空间内表示出来而不丢失过多有用的信息。特别地,在本案例中将目标设定为降至二维平面以便直观观察各个类别之间的分布情况。 ```python from sklearn.decomposition import PCA pca_transformer = PCA(n_components=2).fit(training_data) transformed_points = pca_transformer.transform(testing_data) plt.scatter(transformed_points[:, 0], transformed_points[:, 1]) plt.xlabel("First Principal Component") plt.ylabel("Second Principal Component") plt.title("Visualization of Image Data After PCA Transformation to 2D Space") plt.show() ``` #### 提取经典特征并再次训练 除了直接采用像素强度作为属性之外,还可以考虑提取更加抽象但却更具描述性的特征向量来进行建模预测。例如颜色直方图(Color Histograms)和方向梯度直方图(Histogram of Oriented Gradients,HOG)都是常见的选择之一。一旦获取到了新的表征形式后就可以继续沿用之前的策略建立相应的KNN实例对象执行相似的任务逻辑。 #### 利用神经网络改进识别精度 最后值得一提的是,随着深度学习领域的发展壮大,越来越多的研究表明相比于传统机器学习方案而言,基于人工神经元结构设计而成的学习框架往往能够在解决模式匹配类难题上取得更好的成绩。即使是在当前上下文中尚未深入探讨过的背景条件下也不例外。借助诸如TensorFlow/Keras这样的高级API接口可以帮助快速搭建起适合特定应用场景需求下的前馈型全连接层堆叠架构,并通过反向传播机制自动求解最优权重配置组合使得最终得到的结果尽可能接近真实标签值。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值