不同输出空间下的机器学习 | ||
输出空间 | 实际应用 | |
---|---|---|
二元分类 | Y={−1,+1} | 信用卡分发或不分发、识别垃圾邮件和非垃圾邮件、病人有病或没病、广告是否盈利、答案是否正确 |
多元分类 | Y={1,2,3,...,K} | 手写字体分类、图片识别、垃圾邮件更详细的分类 |
回归 | Y=R 或者 Y=[lower,upper]⊂R | 根据病人的特征判断还有多长时间痊愈、通过公司数据预测股票价格、根据天气数据预测温度 |
结构化学习(序列标记问题) | Y=structures | NLP中的词性标注、通过蛋白质数据预测蛋白质的三维结构、将语音数据转化为语音语法树 |
不同数据标签下的机器学习 | ||
简单介绍 | 实际应用 | |
---|---|---|
有监督学习 | 对于训练集
D
,每个 | 垃圾邮件分类、图片识别 |
无监督学习 | 对于训练集
D
,每个 | 聚类问题(相当于无监督的多元分类)、密度估计(相当于无监督的有界回归)、离群点检测(相当于无监督的二元分类) |
半监督学习 | 对于训练集
D
,有一部分 | 计算机辅助医学影象分析、人脸识别 |
强化学习 | 强化学习类似于宠物训练,通过对机器的一系列“惩罚”和“奖励”来实现性能提升。一般来说,强化学习的输入数据是时序化、部分的。 | 广告推荐、机器人学习 |
不同映射方式下的机器学习 | |
机器学习问题 | 简单介绍 |
---|---|
批量学习 | 把所有已知的数据一次性的喂给机器,又称填鸭式学习。这是一种很常见的学习方式。 |
在线学习 | 首先输入一个 xt ,机器根据当前假设预测出 gt(xt) ,然后从用户那里得到 xt 的真实类别 yt ,用 (xt,yt) 更新 gt 。一般来说,数据的输入是序列化的,即一个一个输入。 |
主动学习 | 类似于半监督学习,训练集
D
中有一部分 |
不同输入空间下的机器学习 | |
不同的输入空间 | 简单介绍 |
---|---|
具体数据 | 输入空间 X⊆Rd 的每一个维度都有复杂的现实含义,通常输入的数据都带有人类的智慧,即被人类描述过得数据。机器学习这些数据是相对比较简单的。 |
原始数据 | 输入空间 X⊆Rd 的每一个维度具有普通的现实含义,比如音频识别中得到的音频,相对来说机器学习的难度也会增加。我们需要把这些原始数据转化为具体数据,这个工作可以由机器完成,也可以由人类完成。由机器完成的叫做深度学习,由人类完成的叫做特征工程。 |
抽象数据 | 输入空间 X⊆Rd 的每一个维度没有或者只有很少现实含义,比如在线广告系统中的广告ID。对于机器来说这种学习是最困难的,这时候就需要更多的特征工程。 |