机器学习类型
Learning with Different Output Space
根据输出空间的不同常见的机器学问题有:
- 二分类问题;
- 多分类问题;
- 回归问题;
- 序列标注问题。
Learning with Different Data Label
根据数据是否有标签分为:
1. 有监督学习
特点:监督学习的数据被称为“训练数据”,每个数据都有一个标签,比如说:在垃圾邮件分类中,我们将Label1:垃圾邮件,Label2:非垃圾邮件。
应用场景:分类问题和回归问题。
2. 无监督学习
特点:没有标签,无监督学习的目的是发现这组数据中的特殊结构。
应用场景:聚类。
3. 半监督式学习
特点:部分数据被标识,部分没有被标识。利用未标记的数据来避免“昂贵”的标签。
应用场景:分类与回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。
4. 强化学习
特点:输入的数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须立刻做出调整,就像训练小狗一样,你对小狗执行你的指令的结果进行奖励或者惩罚,小狗就知道听到指令后应该进行什么样的动作。
应用场景:动态系统以及机器人控制等。
Learning with Different Protocol
- 批量式学习
将训练样本一次性喂给机器进行训练,也被称为“填鸭式学习”。
- 在线学习
当有新的数据进来的时候,需要调整模型,得到最好的模型。例似于感知机,不断调整,最终得到适合的模型。
- 主动学习
学习算法可以与用户进行交互,当遇到一个新的数据,或者机器不确定的数据的时候,可以询问用户,来获得在该样本点所期望的输出,从而来提高模型的准去率。
Learning with Different Input Space
输入是具体的特征(concrete feature)
通常这些特征里面都带有人类的智慧,称为domain knowledge,也就是说你对这个问题的专业知识,也就相当于我们将经过预处理之后的东西交个机器去做,相对于下面提到的raw feature 与 abstract feature 这是相对简单的问题。
Raw Feature
raw feature 比 concrete feature 更抽象一些,更抽象一些意味着对机器来说这个问题越困难。这个时候机器可能就需要做一些事情:把这些抽象的特征转成具体的特征,这个过程如果是人帮着机器做,这就是特征工程,如果是机器自己做,就是Deep Learning。
Abstract Feature
这种是最困难的,需要更多的特征抽取动作。