邻近算法:
K近邻:通过计算测试样本与训练样本之间的距离,然后找出距离测试样本最近的K个样本,统计他们的结果,哪种类型的的结果出现的次数多则预测测试样本的结果为此结果;代码如下
function label1=KNN(training,testing,k)
[row, column]=size(training);
[row1, column1]=size(testing);
%计算测试集与训练集的距离
distance=[];
for i=1:row1
distance(i,:)=sum((repmat(testing(i,:),row,1)-training(:,1:(column-1))).^2, 2);
end
% 寻找K近邻
label=[];%存储距离测试样本最近的K个值
for i=1:row1
[a,b]=sort(distance(i,:));%排序,b存储distance中值的原横坐标
for j=1:k
label(i,j)=training(b(j),column);
end
end
cl=zeros(1,100);
count=1;
cl(1,1)=training(1,column);%统计预测结果类型
for i=2:row
A=training(i,column);
flag=0;
for j=1:count
if cl(1,j) ==A
flag=1;
break;
end
end
if flag==0
count=count+1;
cl(1,count)=A;
end
end
end_count=zeros(row1,count);%统计某个结果出现的次数
for i=1:row1
for j=1:k
for l=1:count
if label(i,j)==cl(1,l)
end_count(i,l)=end_count(i,l)+1;
end
end
end
end
cou=0;
label1=[];%统计预测结果
for i=1:row1
k=1;
num=end_count(i,1);
for j=2:count
if num<end_count(i,j)
k=j;
num=end_count(i,j);
end
end
label1(i)=cl(1,k);
if testing(i,column1)==label1(i)
cou=cou+1;
end
end
end
思路:
第一步统计每个测试样例距离最近的K个结果
第二步:统计结果出现的类型
第三步:统计每种结果在每个测试样本距离最近的K个样例结果出现的次数
第四步:求出出现次数最多的结果作为预测结果