机器学习(1)——获取数据及数据预处理
基本概念
机器学习教计算机执行人和动物与生俱来的活动:从经验中学习。 机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖 于预定方程模型。当可用于学习的样本数量增加时,这些算法可自 适应提高性能。
机器学习算法可从能够带来洞察力的数据中发现自然模式, 帮助您更好地制定决策和做出预测。医疗诊断、股票交易、 能量负荷预测及更多行业每天都在使用这些算法制定关键决策。 媒体网站依靠机器学习算法从数百万种选择中筛选出为您推荐 的歌曲或影片。零售商利用这些算法深入了解客户的购买行为。
因此,数据对机器学习是必不可少的,有了数据,才有了学习的基础,训练的开始。
下载数据
这里选择matlab自带的数据 fisheriris.mat,鸢尾花数据集。下面给出matlab自带的所有
数据集
读取数据
load fisheriris % 读取数据
meas(:,4) % 显示meas的第四列
fisheriris.mat 有两个数据集,一个是 meas,一个是 species 。
meas 是鸢尾花的一些特征,数据大小为 150 × 4 150\times4 150×4,每一行对应相应的观测结果,4列对应的属性分别是萼片长度,萼片宽度,花瓣长度,花瓣宽度。
species 是鸢尾花的种类,setosa是山鸢尾,versicolor是多色鸢尾,virginica是弗吉尼亚鸢尾
查看species数据的分类
[speciesnum,sort]