鸢尾花是鸢尾属植物,是对一族草本开花植物的统称,是法国国花,香气淡雅,可以调制香水。“鸢尾”之名来源于希腊语,意思是彩虹。它表明天上彩虹的颜色尽可在这个属的花朵颜色中看到。鸢尾花常用以象征爱情和友谊,感觉就是如田间里不惊艳的浪漫温馨,灰姑娘与青蛙王子的执著认真。这种花由6个花瓣状的叶片构成的包膜,3个或6个雄蕊和由花蒂包着的子房组成。
生物学的知识介绍到此,下面是机器学习的问题,怎么区分不同类的鸢尾花?
这里用到支撑向量机(SVM)的方法,它是一种建立在结构风险最小原理基础上的统计机器学习方法,适合解决小样本、非线性及高维模式识别问题,对它的数学理解会在以后博客中详细讨论。
我们知道台湾Chih-Jen Lin的Libsvm包非常出名,网上有很多介绍,所以,这里就不讲、也不用了。
直奔主题,这里用的是python的mlpy库。
问题描述
鸢尾花数据集(Iris data
set)应该是模式识别中最著名的数据集,直到今天,Fisher的那篇论文(1936)还是经典中的经典。我们通过花萼(sepal)和花瓣(petal)的长和宽,共四组数据,来区分三种鸢尾花:山鸢尾(Iris
Setosa)、变色鸢尾(Iris Versicolor)和维吉尼亚鸢尾(Iris Virginica)。
对于支撑向量机来说最重要的莫过于核函数的选择。可以证明,只要