人类认识事物:
可被观察到的事物区别
通过人的认真观察+数据观察分析=》找出本质特征或者说明显的特征
机器学习识别:
第一步:特征提取【对于机器 学习 系统是非常非常重要的】
通过训练样本获得的,对机器学习任务有帮助的多维度特征数据
提取特征的方法:
①计算面积,采取图像处理中的链码和图像坐标
②计算边缘,用01矩阵来计算物体的边缘
例如:提取边缘,从物体的边缘来推测它的周长和面积,同时基于边缘的信息,用图像处理中的哈弗变换,提取物体的形状/曲线,通过灰度共生矩阵[灰的不一样+01矩阵]来表现物体的粗糙程度。
机器学习的重点不是研究如何提取特征,而是假设在特征已经提取好的前提下,如何构造算法获得更好的性能。
对于机器而言,提取了好的特征,通过也能获得不错的性能。如果说提取的特征很差,无法反应出训练样本的内在规律,不可能获得好的性能。
为什么不重点研究提取特征:
不同的任务提取特征的方式不同。
例如:图像、语音、三维点这些媒质的物理属性各不相同。同时机器学习的任务也各不相同。
不同媒质不同任务=>提取特征的方式千变万化
第二步:特征提取结果
特征选择:
这个时候要通过图像来代表各个物体的在同一比较条件(特征)下的区别。
然后我们要选择什么是主要的区别特征。这里要求这个数据差明显。
周长特征:大家都懂
面积特征:大家都懂
形状特征:可见上面
纹理特征:
1.灰度直方图的均值
2.灰度直方图的标准差
3.灰度共生矩阵的二阶矩
4.灰度共生矩阵的相关性
5.灰度共生矩阵的对比度
选择其中你认为很重要的点(特征)来构建机器学习系统。
如何基于这两个特征构建算法:
①支持向量机
(支持向量机的三种内核=>{为了方便理解,你可以将其看为三种机器学习的算法})
线性内核
多项式核
高斯径向基函数核
关键一步 :训练结果
前提:在这里是提取的两个特征,才有二维图和一个横坐标和一个纵坐标。
将物体画在一张二维的图上,横坐标是一个特征,纵坐标是一个特征,然后将每个特征分别归一化到±1之间。
这个两个特征组成的特征平面叫做特征空间。在这里有两个特征就是二维的,如果采用了多个特征,那么特征空间构成的维度可以高于二维。
然后利用前面讲到的三种不同算法,机器或者人在这个满足需求问题的特征空间下画出了一条线。
不同的机器学习算法会画出不同的线,一旦画出这条线,机器学习的过程就已经完成了。
深度学习:特征空间往往是几万维或者几十万维。
维度和标准
对于二维人们能够很快速的掌握规律并运用规律。
一旦维度增加,就很难看清规律了。
维度:人眼对于超过三维的世界缺乏想象力。而机器在处理高维的数据中有起手的优势与性能。远远超越了人类对高维世界的想象。
标准:不同的机器学习算法会画出不同的线,对某一区域的划分是不一样的。
然后就会衍生出一个问题:哪个机器学习的算法更好呢?
我们需要研究画线的方法,确保每种画线的方法适用于什么样的情况和场景,这个问题很困难。因为这个线是根据有限的训练样本画的。它的目的是预测新样本的类别。我们无法穷尽所有的新样本。我们不能得出一个绝对意义的好与坏的标准。
如何针对不同的应用场景选择合适的机器学习算法,甚至构造新的机器学习算法解决目前无法解决的应用场景。
3种机器学习算法训练库准确率:(满分:100;你信吗?)
rbf内核:95
线程核:97
多项式核:95
然后我们就可以发现线性核的准确率高。
测试结果图像
测试,然后看图像,再看结果怎么样
总结
1.机器学习算法的过程:
特征提取、特征选择=>不同的算法对特征空间做不同的划分=>不同的结果
【重点】2.研究不同应用场景下应该采用哪种算法
【更重点】3.研究新的机器学习算法以便适应新的场景