一、面向不同的输出空间
- 二元分类(判断题)之前学习的LPA
- 多元分类(选择题)
- 回归(填空题)在统计学领域已经研究多年,很多经验和结果可以拿来借鉴。
- 结构化:有点像分类,但是无法穷举所有类别。可以当做是超级大的多分类问题。比如分析语言文法,语句有很多种组合类别。
其中二元分类和回归是其他的基础,所以我们的重点是这两类问题。
二、面向是否有标签
所有的data是否都是(X,y)这样配对呢?更准确的表达:每组数据是否有标签。
用分类问题来做说明。
- 监督式学习:有输出 y y y
- 非监督式学习:数据没有输出 y y y
- 半监督是学习:部分数据有输出 y y y,适用于标记很贵的场景。
- 增强式学习:对输出 y y y做相关好与坏等的评价
监督,半监督和非监督学习的分类可视化效果可以先下图:
三、根据如何将数据送进算法
- batch批量式:一次性将很多数据用于算法训练(填鸭式)
- online渐进式:随着时间的推移,逐渐改进算法效果。之前讲过的PLA算法就很容易修改成渐进式的算法。增强式学习也通常是渐进式的,因为在逐渐改进算法效果。(渐进式)
- active主动式学习:该类算法的想法是,让算法自己来提问题。(主动式)
其中批量式是所有方法的基本。
四、根据输入特征划分
- concrete feature:确定的特征,比如之前确定是否发放信用卡的时候,申请人的特征包括:年龄、性别、收入等等。
- raw feature:原始特征:比如在做手写识别的时候,特征为每个像素值,这些像素值就是原始特征,单独看这些东西,无法表征出来什么确定的属性。
- abstract feature:抽象特征,完全没有物理含义。比如说:输入为用户编号。这种情况需要我们自己进行特征工程,提取有用的具象的特征。