根据数据集组成不同,可以把机器学习算法分为:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
监督学习
定义:
输入数据是由输入
特征值
和目标值
所组成。
函数的输出可以是一个连续
的值(称为回归
), 或是输出是有限个离散
值(称作分类
)。
1.1 回归问题
例如:预测房价,根据样本集拟合出一条连续曲线。
1.2 分类问题
例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。
无监督学习
定义:
输入数据是由输入特征值组成,没有目标值
输入数据没有被标记,也没有确定的结果。样本数据类别未知;
需要根据样本间的相似性对样本集进行类别划分。
- 有监督,无监督算法对比:
半监督学习
定义:
训练集同时包含有标记样本数据和未标记样本数据。
举例:
- 监督学习训练方式:
- 半监督学习训练方式
强化学习
定义:
实质是make decisions 问题,即自动进行决策,并且可以做连续决策。
举例:
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素:agent, action, reward, environment, observation;
强化学习的目标就是获得最多的累计奖励。
监督学习和强化学习的对比