iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set。iris包含150个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,所以iris数据集是一个150行5列的二维表。通俗地说,iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(前4列),我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾(这三个名词都是花的品种)。
数据的获取:
file=importdata('iris.csv');%读取csv文件中从第R-1行,第C-1列的数据开始的数据 data=file.data; features=data(:,1:4);%特征列表 classlabel=data(:,5);%对应类别 n = randperm(size(features,1));%随机产生训练集和测试集
绘制散点图查看数据:
%% 绘制散点图 class_0 = find(data(:,5)==0); class_1 = find(data(:,5)==1); class_2 = find(data(:,5)==2);%返回类别为2的位置索引 subplot(3,2,1) hold on scatter(features(class_0,1),features(class_0,2),'x','b') scatter(features(class_1,1),features(class_1,2),'+','g</