这一讲是对于之前机器学习的分类的介绍,也是让我们知道哪些类型的问题适合用什么类别的机器学习演算法进行计算。重点在于不同的分类标准,机器学习的分出的类别也不一样。
分为四个部分,现在一一进行总结:
第一部分是Learning with different output space y即输出空间不一样的时候。
这一类是PLA所属于的一类问题,二元分类问题,这也是机器学习的核心问题,是许多机器学习演算法的基础。而分类问题衍生出来的还有多分类问题,比如贩卖机识别硬币的技术,而二分类是多分类的特殊情况。
这类多分类问题,一般是较多涉及视觉、听觉。以去医院看医生为例子,基于以往的病例对病人做出的判断有:
1、生病与否——二分类
2、什么种类的病——多分类
3、多少天恢复呢?——回归问题(regression)
回归问题林老师说会在接下来的课程中有详细介绍,这里只是提及。
同时还补充了个结构化学习,是从多分类衍生过来的,在我看来就是自然语言处理的文本语义识别,也是这方面的重点和难点。
这一部分的总结呢,如下:
第二部分呢,是learning with different data lable yn就是数据的标记方式不一样,就是数据的给出解释,映射的答案不一样。
比如有的学习过程中,会告诉计算机函数的变量和因变量,这一类的我们称为“监督式学习”
在视频中,林老师用的是告诉你铜板也告诉你铜板的意思来解释这个概念。
当然,这个是我们事先就已经设计了分类。
如果我们事先没有分好类,同时只给数据不给数据的假设,这一类称为“非监督式学习”,这一类通常是使用与聚类相关的方法进行。
还有一种呢,是介于这两者之间,通常是因为数据很多,解释和答案因为现实原因,不会一一匹配,这一类的学习称为“半监督式学习”,这一类一般应用在人脸识别、语音识别的方面。
最后一种呢,是由于输入的数据不是解释性的,而是本应该是解释性的却给了true和false这样的判断答案,这个就是强化学习,比如在训练小动物的时候使用的就是一种强化学习。是一种以隐式的方式给机器答案。
第二部分的总结如下,我们很明显可以看到就是对变量或者是数据的解释,或者说是映射的表述不一样,有的缺省(半监督),有的甚至没有(非监督),有的给出的很隐晦(强化),最好的自然有所有的解释(监督式)
第三部分呢,是基于算法,Learning with Different Protocolf 但是供给电脑的方式不同,所分的类别:
1、线上学习,比如增强式学习
2、批处理(离线)学习,一口气将数据全部交给机器,batch批处理学习
3、主动式学习,数据主动不提供给机器,让机器自己来问答案,选择合适的xn来问yn以获得训练。这一点类似学到不会了就向老师资讯之类的问题。
这一部分的总结是,对于数据的给出方式,是一口气全(batch)【批处理】给还是一次一个顺序(online)的给,还是等着机器来要(active)
第四部分,Learning with Different Input SpaceX 是数据的不同,有的数据是具体的,有的数据是凌乱的raw,需要机器将raw的数据转化成为具体(concrete)的进行具体的机器学习。
那么raw的数据,这类未加工的数据,需要更多的数据清洗的知识。
而对于concrete的具体数据是机器的福音。
当然还有抽象的数据(用于推荐系统很多)始终需要转化成为具体的concrete的数据进行进一步学习。
这一部分的总结可以很好的归纳出来:
那么今天的这节课的总结而言,就是基于不同的分类,对机器学习的种类做了详细的介绍:
但是不管如何在各自的分类方式上,各有各的基石:
1、不同的输出——以分类为基础
2、不同的映射(数据标记)——以监督式学习为基础
3、不同的给出的数据约束——以离线批处理(batch)学习为基础
4、不同的给出的数据空间——以具体准确的数据描述为基石,其余均需要想起转化
这节课就和大家分享到这!