机器学习算法的过程

最新推荐文章于 2024-05-15 09:09:02 发布

郑师傅炒板栗

最新推荐文章于 2024-05-15 09:09:02 发布

阅读量1.1k

点赞数 1

文章标签：机器学习算法深度学习

本文链接：https://blog.csdn.net/weixin_43306271/article/details/122418001

版权

人工智能专栏收录该内容

10 篇文章 2 订阅

订阅专栏

一、任务分析

1. 引言

基于SVM的尿沉渣红、白细胞识别：
任务：识别尿沉淀物中的红细胞和白细胞；
下图是标注过的训练样本，左边是白细胞，右边是红细胞；

在这里插入图片描述

2.对数据要有认知

在这个任务中，当我们拿到数据之后，构建机器学习算法的第一步：
是观察数据，总结规律；
（最近几年由于大数据和深度学习的发展，很多人会认为，只要收集
足够多的数据，从网上随便下载一个开源的算法模型，直接将
数据丢到算法模型中去训练，就可能获得很好的结果，这样
的观点在大多数时候不正确，偶尔可能正确也是误打误撞的结果
，如果我们自身对数据没有认知，我们很难设计出好的算法，
也很难估计算法可能达到的性能极限）

3. 观察数据得到信息

仔细观察，图中左边的白细胞和右边的红细胞有什么区别呢？
有可能被观察到的区别：
1.平均来说，白细胞面积比红细胞大；
2.白细胞没有红细胞圆；
3.白细胞内部纹理比红细胞粗糙。

机器学习的第一步是特征提取（Feature Extraction）；
特征提取：通过训练样本获得的，对机器学习任务有帮助的
多纬度特征数据。

4. 机器学习第一步：提取特征（Feature Extraction）

对于此项目，提取三类特征：（认真观察数据后得出的结果）
（1）细胞的面积
（2）圆形度
（3）表面粗糙程度

（1）提取以上这三种特征的方法：

a. 提取面积特征的方法：

在这里插入图片描述

1.采用图像处理中的链码，来提取细胞的边缘信息，
从细胞的边缘信息来推测出细胞的周长和面积，同时又基于边
缘的信息，用图像处理中的哈夫（Hough）变换，提取细胞的
圆形程度，接着又利用灰度共生矩阵，提取细胞的粗糙程度；
2.

（2）注意事项！

机器学习的重点，不是研究如何提取特征，而是假设在已经提取好这么些特征的前提下–>如何构造算法获得更好的性能指标，所以，我们不过多的研究如何提取特征，但是这并不意味着提取特征这一步不重要，相反特征提取对于机器学习系统及其重要，实践表明，如果我们提取了好的特征，哪怕用差一点的机器学习算法也能获得不错的性能；反之如果我们提取的特征很差，无法反映出训练样本的内在规律，那么哪怕我们用再好的机器学习算法，也不可能获得好的性能。

（3）为什么不重点研究提取特征呢？

因为不同的任务提取特征的方式有不同：
例如：图像，语音，等媒质的物理属性各不相同，同时机器学
习的任务也各不相同，因此针对不同的媒质不同的任务，提取
特征的方式千变万化（涉及内容很多）；
因此机器学习课程缩小了研究范围，假设在已经获得了特征的
前提下，研究合理的算法，使学习系统获得较好的性能。

5. 机器学习第二步：特征选择（Feature Selection）

在提取特征这一步做完后，下一步是对特征进行取舍，称为特征选择

（1）特征选择（对各个特征区分度分析）

在这里插入图片描述

红色表示红细胞的特征
蓝色表示白细胞的特征
见上图，红细胞和白细胞每个样例对应的特征值
由周长和面积图可知，区分白细胞和红细胞的准确度是非常高的，因为蓝色的线和红色的线重合的地方很少；
在圆形度这个特征上，尽管红细胞的平均值要高一些，但是红细胞的圆形度和白细胞的圆形度重合的
地方还是很多的；
因此我们若是只采用圆形度作为区分红细胞和白细胞的特征，识别度不会特别的高

在这里插入图片描述

以上这五个灰度XX的特征区分度也不是很高

所以，最终决定，选择面积和周长作为区分白细胞和红细胞的特征，来构建机器学习系统

6.机器学习第三步：如何基于这两个特征构建算法？

（1）支持向量机（SUPPORT VECTOR MACHINE）

此处用到了支持向量机的三种内核：线性内核、多项式核、高斯径向基函数核（可以将这三种内核看成是三种不同的机器学习算法）

（2）（对训练结果的处理）将所有的白细胞和红细胞画到一张二维的图上

在这里插入图片描述

横坐标代表面积，纵坐标代表周长特征（对此，做了一定程度的归一化），将这两个特征的数值归一
化到+1与-1之间；
将这两个特征组成的二维平面，称为特征空间（Feature Space），在此例中，特征空间是二维的，
如果我们采用了多个特征，那么特征空间的维度可以高于二维；
可以看到，在这个二维的特征空间中，绿色代表红细胞，红色代表白细胞，接下来利用前面提到的三
种不同的算法，在这个特征空间的图上，画出了三条不同的线，不同的机器学习算会画出不同的线
，同时一旦画出这条线，机器学习的过程就已经完成了；
why？

在这里插入图片描述

如果输入一个新的样本，我们怎么预测它是白细胞还是红细胞呢？
先计算面积再计算周长，然后，把新样本按照面积和周长这两个维度的位置关系，画到此图上，如果
新样本落在这条线的左边，则判之为红细胞；若新样本落在此线条的右边，则判之为白细胞。
只有画出了这条线，我们就能预测新样本的类别。
重点：
因此，在这个例子中，机器学习的过程就是设计一个算法画出这样一条曲线。

（3）维度

此例子中，就提取了面积和周长两个特征，特征空间是二维的，只有面积和周长两个维度，所以能很容易发现其规律，并画出来曲线；但是，若是特征空间的维度极高，例如我们提取了上万个特征，产生了上万维的特征空间，这规律就不好看出来了。

在最近流行的深度学习算法模型中，特征空间经常是几万维，甚至几十万维的，人眼对于超过三维的
世界缺乏想象力，人看不到。
但是，目前的机器学习算法，在处理高维特征空间方面，表现出优异的性能，远远超越了人类对于高
维空间的想象。哪怕是对于上万维的空间，机器学习也可以给出一个预测的结果，而且这个结果在很
多时候，还那么的准确。

（4）标准：对某一些区域的划分是不一样的

在这里插入图片描述

图中，对于同一块区域，但是上面的图中的方法认为这是红细胞，下面的图中的方法认为这是白细胞

会引出哪种机器学习的算法更好这样的问题。
这些线是根据有限的训练样本画的，目的是预测新样本的类别，我们无法重建所有的新样本。（即无法将世界上所有的红细胞，白细胞一一列举到图上）。
无法得出一个绝对意义的好和坏的标准。

如何针对不同应用场景选择合适的机器学习算法？
构造新的机器学习算法，解决目前无法解决的应用场景。
理论 + 实践
深入研究

7. 三种算法在测试集上准确率的比较

在这里插入图片描述

8. 总结机器学习算法的流程

在这里插入图片描述

郑师傅炒板栗

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法的过程

一、任务分析1. 引言基于SVM的尿沉渣红、白细胞识别：任务：识别尿沉淀物中的红细胞和白细胞；下图是标注过的训练样本，左边是白细胞，右边是红细胞；2.对数据要有认知在这个任务中，当我们拿到数据之后，构建机器学习算法的第一步：是观察数据，总结规律；（最近几年由于大数据和深度学习的发展，很多人会认为，只要收集足够多的数据，从网上随便下载一个开源的算法模型，直接将数据丢到算法模型中去训练，就可能获得很好的结果，这样的观点在大多数时候不正确，偶尔可能正确也是误打误撞的结果，如果我们自身
复制链接

扫一扫

专栏目录