今天晚上用matlab实现了自助算法,虽然过程有些曲折,但是最终还是实现了,下面先贴出源码,然后再一一做解释。
源码如下:
clear all;
close all;
data = csvread('watermelon4.0.csv');
[m,n]= size(data);
middleVector = 1:m;
Sindex = randi([1,m],1,m)
notInT = unique(Sindex);
Tindex = setdiff(middleVector,notInT);
S = data(Sindex,:);
T = data(Tindex);
首先,了解一下自助算法的原理。假设样本有M条数据,定义为D,训练数据为S,随机从D中取M次数据,并保存,测试数据T,是所有不包含S数据的D。
其次,我们分析一下开篇贴出的源码clear all,close all是将之前的数据清除,以保证数据的正确性;data = csvread('watermelon4.0.csv');是获取初始数据;[m,n] = size(data);是获取初始数据的行数和列数;sum = 1:m;生成一个1行m列的向量;Sindex=randi([1,m],1,m);随机生成m行的矩阵的索引,即训练数据的矩阵S的索引;notInT=unique(Sindex);对训练数据索引去重;Tindex=setdiff(middleVector,notInt);由setdiff函数求得不包含S数据的D的测试数据索引。最后两句是根据索引给S,T赋值。