KNN改进

最新推荐文章于 2023-07-03 23:07:58 发布
Jack_Sarah
最新推荐文章于 2023-07-03 23:07:58 发布
阅读量1.5k
点赞数
分类专栏：图像处理算法文章标签：数据搜索算法 KNN算法
图像处理算法专栏收录该内容
8 篇文章 0 订阅
订阅专栏
转自http://ben1024.blogbus.com/logs/41046442.html
近邻的非正式描述，就是给定一个样本集exset，样本数为M，每个样本点是N维向量，对于给定目标点d，d也为N维向量，要从exset中找出与d距离最近的k个点(k<=N)，当k=1时，knn问题就变成了最近邻问题。最naive的方法就是求出exset中所有样本与d的距离，进行按出小到大排序，取前k个即为所求，但这样的复杂度为O(N)，当样本数大时，效率非常低下. 我实现了层次knn(HKNN)和kdtree knn，它们都是通过对树进行剪枝达到提高搜索效率的目的，hknn的剪枝原理是(以最近邻问题为例)，如果目标点d与当前最近邻点x的距离，小于d与某结点Kp中心的距离加上Kp的半径，那么结点Kp中的任何一点到目标点的距离都会大于d与当前最近邻点的距离，从而它们不可能是最近邻点(K近邻问题类似于它)，这个结点可以被排除掉。 kdtree对样本集所在超平面进行划分成子超平面，剪枝原理是， 如果某个子超平面与目标点的最近距离大于d与当前最近点x的距离，则该超平面上的点到d的距离都大于当前最近邻点，从而被剪掉。
matlab下实现：
 
 VecDist.m 

 function y = VecDist(a, b) 
 
 %%返回两向量距离的平方 
 
 assert 
 (length(a) == length(b)); 
 
 y = sum((a-b).^2); 
 
 end 

 下面是HKNN的代码 

 Node.m 

 classdef Node < handle 
 
 %UNTITLED2 Summary of  
 this  
 class  
 goes here 
 
 %   Detailed explanation goes here 
 
 % Node 层次树中的一个结点，对应一个样本子集Kp     
 
 properties 
 
 Np; %Kp的样本数 
 
 Mp; %Kp的样本均值，即中心 
 
 Rp; %Kp中样本到Mp的最大距离 
 
 Leafs; %生成的子节点的叶子,C * k矩阵,C为中心数量，k是样本维数。如果不是叶结点，则为空 
 
 SubNode; %子节点, 行向量 
 
 end    
 
 methods 
 
 function obj = Node(samples, maxLeaf) 
 
 global SAMPLES 
 
 %samples是个列向量，它里面的元素是SAMPLES的行的下标,而不是SAMPLES行向量，使用全局变量是出于效率上的考虑 
 
 obj.Np = length(samples); 
 
 if  
 (obj.Np <= maxLeaf) 
 
 obj.Leafs = samples; 
 
 else 
 
 %                 opts = statset( 
 'MaxIter' 
 ,100); 
 
 %                 [IDX] = kmeans(SAMPLES(samples, :), maxLeaf,  
 'EmptyAction' 
 , 
 'singleton' 
 , 
 'Options' 
 ,opts); 
 
 [IDX] = kmeans(SAMPLES(samples, :), maxLeaf,  
 'EmptyAction' 
 , 
 'singleton' 
 ); 
 
 for  
 k = 1:maxLeaf 
 
 idxs = (IDX == k); 
 
 samp = samples(idxs); 
 
 newObj = Node(samp, maxLeaf); 
 
 obj.SubNode = [obj.SubNode newObj];%SubNode为空说明当层的Centers是叶结点 
 
 end  
 
 end 
 
 obj.Mp = mean(SAMPLES(samples, :), 1); 
 
 dist = zeros(1, obj.Np); 
 
 for  
 t = 1:obj.Np 
 
 dist(t) = VecDist(SAMPLES(samples(t), :), obj.Mp); 
 
 end 
 
 obj.Rp = max(dist);  
 
 end 
 
 end 
 
 end 

 SearchKNN.m 

 function SearchKnn(Node) 
 
 global KNNVec KNNDist B DEST SAMPLES 
 
 m = length(Node.Leafs); 
 
 if  
 m ~= 0 
 
 %叶结点 
 
 %是叶结点 
 
 for  
 k = 1:m 
 
 D_X_Xi = VecDist(DEST, SAMPLES(Node.Leafs(k), :)); 
 
 if  
 (D_X_Xi < B) 
 
 [Dmax, I] = max(KNNDist); 
 
 KNNDist(I) = D_X_Xi; 
 
 KNNVec(I) = Node.Leafs(k); 
 
 B = max(KNNDist); 
 
 end 
 
 end 
 
 else 
 
 %非叶结点 
 
 tab = Node.SubNode; 
 
 D = zeros(size(tab)); 
 
 delMark = zeros(size(tab)); 
 
 for  
 k = 1:length(tab) 
 
 D(k) = VecDist(DEST, tab(k).Mp); 
 
 if  
 (D(k) > B + tab(k).Rp) 
 
 delMark(k) = 1; 
 
 end 
 
 end 
 
 tab(delMark == 1) = []; 
 
 for  
 k = 1:length(tab) 
 
 SearchKnn(tab(k)); 
 
 end     
 
 end 

 下面是kdtree的代码 

 KDTree.m 

 classdef KDTree < handle 
 
 %UNTITLED2 Summary of  
 this  
 class  
 goes here 
 
 %   Detailed explanation goes here 
 
 properties 
 
 dom_elt; %A point from Kd_d space, point associated with the current node 
 
 split_pos;%分割位置，比如对于K维向量，这个位置可以是从1到k 
 
 left;%左子树 
 
 right;%右子树  
 
 bNULL;%标识这个结点是否是NULL 
 
 end 
 
 methods (Static) 
 
 function [sample, index, split] = ChoosePivot1(samples) 
 
 global SAMPLES 
 
 dimVar = var(SAMPLES(samples, :)); 
 
 [maxVar, split] = max(dimVar);%分界点的维，即从第多少维处分 
 
 [sorted, IDX] = sort(SAMPLES(samples, split)); 
 
 n = length(IDX); 
 
 index = IDX(round(n/2)); 
 
 sample = samples(index); 
 
 end 
 
 function [sample, index, split] = ChoosePivot2(samples) 
 
 %第二种pivot选择策略,选择范围最长的那维作为pivot 
 
 %注意：这个选择策略是以树的不平衡性换取剪枝时的效果，对于有些数据分布，性能可能反而下降 
 
 global SAMPLES 
 
 [upper, I] = max(SAMPLES(samples, :), [], 1);%按列取最大值 
 
 [bottom, I] = min(SAMPLES(samples, :), [], 1);% 
 
 range = upper-bottom;%行向量 
 
 [maxRange, split] = max(range);%分界点的维，即从第多少维处分 
 
 [sorted, IDX] = sort(SAMPLES(samples, split)); 
 
 n = length(IDX); 
 
 index = IDX(round(n/2)); 
 
 sample = samples(index);           
 
 end 
 
 function [exleft, exright] = SplitExset(exset, ex, pivot) 
 
 global SAMPLES 
 
 vec = SAMPLES(exset, pivot);%列向量 
 
 flag = (vec <= SAMPLES(ex, pivot)); 
 
 exleft = exset(flag); 
 
 flag = ~flag; 
 
 exright = exset(flag); 
 
 end 
 
 end 
 
 methods 
 
 function obj = KDTree(exset) 
 
 %输入向量集,SAMPLES的下标 
 
 if  
 isempty(exset) 
 
 obj.bNULL =  
 true 
 ; 
 
 else 
 
 obj.bNULL =  
 false 
 ; 
 
 [ex, index, split] = KDTree.ChoosePivot1(exset); 
 
 %[ex, index, split] = KDTree.ChoosePivot2(exset); 
 
 obj.dom_elt = ex; 
 
 obj.split_pos = split; 
 
 exset_ = exset;%exset除去先作分割点的那个点 
 
 exset_(exset == ex) = []; 
 
 %将exset_分成左右两个样本集 
 
 [exsetLeft, exsetRight] = KDTree.SplitExset(exset_, ex, split);        
 
 %递归构造左右子树 
 
 obj.left = KDTree(exsetLeft); 
 
 obj.right = KDTree(exsetRight); 
 
 end 
 
 end 
 
 end     
 
 end 

 SearchKnn.m 

 function SearchKNN(kd, hr) 

 %SearchKNN Summary of  
 this  
 function goes here 
 
 %   Detailed explanation goes here 
 
 % kd 是 kdtree 
 
 % hr是输入超平面图,它是由两个点决定，类比平面和二维点，所有二维点都在平面上， 
 
 % 而平面上的一个矩形区域，可以由平面上的两个点决定 
 
 % 首次迭代，输入超平面为一个能覆盖所有点的超平面。对于二维，可以想像p1 = (-infinite, -infinite) 
 
 % 到p2 = （infinite, infinite)的平面可以覆盖二维平面所有点。可以推测一个可以覆盖K维空间所有点的的超平面图  
 
 % 应该是(-inf, -inf....-inf),k维,到正的相应无穷点 
 
 global SAMPLES DEST MAX_DIST_SQD %global in 
 
 %DIST_SQD, SQD是指距离的平方 
 
 global KNNVec KNNDist %global out 
 
 if  
 kd.bNULL 
 
 %kd是空的        
 
 return 
 ; 
 
 end 
 
 %kd不为空 
 
 pivot = kd.dom_elt;%下标 
 
 s = kd.split_pos;     
 
 %分割输入超平面 
 
 %分割面是经过pivot并且cui直于第s维 
 
 %还原是以二维情况联想，可以得到分割后的两个超平面图 
 
 left_hr_right_point = hr(2,:); 
 
 left_hr_right_point(s) = SAMPLES(pivot,s); 
 
 left_hr = [hr(1,:);left_hr_right_point];%得到分割后的left 超平面 
 
 right_hr_left_point = hr(1,:); 
 
 right_hr_left_point(s) = SAMPLES(pivot, s); 
 
 right_hr = [right_hr_left_point;hr(2,:)];%得到right 超平面 

 % 判断目标点在哪个超平面上 
 
 % 始终以二维情况来理解，不然比较抽象 
 
 bTarget_in_left = (DEST(s) <= SAMPLES(pivot, s)); 
 
 nearer_kd = []; 
 
 nearer_hr = []; 
 
 further_kd = []; 
 
 further_hr = []; 
 
 if  
 bTarget_in_left 
 
 %如果在左边超平面上 
 
 %那么最近点在kd的左孩子上 
 
 nearer_kd = kd.left; 
 
 nearer_hr = left_hr; 
 
 further_kd = kd.right; 
 
 further_hr = right_hr; 
 
 else 
 
 %在右孩子上 
 
 nearer_kd = kd.right; 
 
 nearer_hr = right_hr; 
 
 further_kd = kd.left; 
 
 further_hr = left_hr; 
 
 end 
 
 SearchKNN(nearer_kd, nearer_hr); 
 
 % A nearer point could only lie in further_kd  
 if  
 there were some 
 
 % part of further_hr within distance  
 sqrt 
 (MAX_DIST_SQD) of target  
 
 sqrt_Maxdist =  
 sqrt 
 (MAX_DIST_SQD); 
 
 %     剪枝就在这里 
 
 bIntersect = CheckInterSect(further_hr, sqrt_Maxdist, DEST); 
 
 if  
 ~bIntersect 
 
 %如果不相交,没有必要继续搜索了 
 
 return 
 ; 
 
 end 
 
 %如果超平面与超球有相交部分 
 
 d = VecDist(SAMPLES(pivot, :), DEST); 
 
 if  
 d < MAX_DIST_SQD 
 
 [Dmax, I] = max(KNNDist); 
 
 KNNVec(I) = pivot; 
 
 KNNDist(I) = d; 
 
 MAX_DIST_SQD = max(KNNDist); 
 
 end     
 
 SearchKNN(further_kd, further_hr); 
 
 end 
 
 function bIntersect = CheckInterSect(hr, radius, t) 
 
 %检查以点t为中心，radius为半径的圆，与超平面hr是否相交,为方便 
 
 %在超平面上找到一个距t最近的点，如果这个距离小于等于radius，则相交 
 
 %如何确定超平面上到t最近的点p： 
 
 %假设超平面hr在第i维的上限和下限分别是hri_max, hri_min,则有 
 
 %       hri_min,  
 if  
 ti <= hri_min 
 
 % pi = ti,  
 if  
 hri_min < ti < hri_max 
 
 %       hri_max,  
 if  
 ti >= hri_max 

 p = zeros(size(t));%超平面上与t最近的点,待求 
 
 minHr = hr(1,:);maxHr = hr(2,:); 
 
 %      
 for  
 k = 1:length(t) 
 
 %          
 if  
 (t(k) <= minHr(k)) 
 
 %             p(k) = minHr(k); 
 
 %         elseif (t(k) >= maxHr(k)) 
 
 %             p(k) = maxHr(k); 
 
 %          
 else 
 
 %             p(k) = t(k); 
 
 %         end 
 
 %     end 
 
 flag1 = (t <= minHr);p(flag1) = minHr(flag1); 
 
 flag2 = (t >= maxHr);p(flag2) = maxHr(flag2); 
 
 flag3 = ~(flag1 | flag2);p(flag3) = t(flag3);     
 
 if  
 (VecDist(p, t) >radius^2) 
 
 bIntersect =  
 false 
 ; 
 
 else 
 
 bIntersect =  
 true 
 ; 
 
 end 
 
 end
Jack_Sarah
关注
0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
KNN改进

转自http://ben1024.blogbus.com/logs/41046442.html近邻的非正式描述，就是给定一个样本集exset，样本数为M，每个样本点是N维向量，对于给定目标点d，d也为N维向量，要从exset中找出与d距离最近的k个点(k&lt;=N)，当k=1时，knn问题就变成了最近邻问题。最naive的方法就是求出exset中所有样本与d的距离，进行按出小到大排序，取前k个即...
复制链接

扫一扫