1、算法分类
(1)监督学习
(2)无监督学习
(3)半监督学习
(4)强化学习
1.1 监督学习
1.1.1 定义
输入数据由输入特征值和目标值所组成,具有标准答案
函数的输出可以是一个连续的值(称为回归),或是输出有限个离散值(称为分类)
1.1.2 回归问题
例如:预测房价,根据样本集拟合一条曲线
1.1.3 分类问题
例如:根据肿瘤特征去判断良性还是恶性,得到结果是“良性”或是“恶性”,是离散的。
1.2 无监督学习
1.2.1 定义
输入数据没有被标记,也没有确定的结果,样本数据类别未知,需要根据样本集的相似性对样本集进行分类(聚类,clustering)视图是雷内差距最小化,类间差距最大化
以上图片,无标签,可以按性别分类,也可按运动类型分类,也可按长发短发分类等等,无标准答案
1.3 半监督分类
1.3.1 概念
即训练集同时包含有标记样本数据和未标记样本数据
1.3.2 半监督学习训练方式
先将已标记部分的数据进行训练生成模型,然后加入未标记数据再进行训练(目前不是很成熟)
1.4 强化学习
强化学习实质是make decision 问题,及自动化进行决策,且可以连续决策,是一个动态的过程,上一步输出是下一步的输入,主要包含四个元素:agent,环境状态(enviroment),行动(action),奖励(reward)。
1.5 总结
1.5.1 监督学习和强化学习的对比
监督学习 | 强化学习 | |
反馈映射 | 输入到输出的一个映射,监督式学习输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出。 | 输入到输出的一个映射,强化学习输出的是给机器的反馈reward function,即用来判断这个行为的好坏 |
反馈时间 | 做了比较坏的选择会立刻反馈给算法 | 结果反馈有延时,有时候可能需要走了很多不以后才知道以前某一步的选择是好是坏 |
输入特征 | 输入是独立同分布的 | 面对的输入总是在变化,每当算法做出一个行为,他影响下一次决策的输入 |
行为模式 | 不考虑行为间的平衡,只考虑开发 | 一个agent可以在探索和开发之间做权衡,并且选择一个最大的回报 |
2、模型评估
2.1 分类模型评估
- 准确率:预测正确数占样本总数的比例
- 准确率:正确预测为正占全部预测为正的比例
- 召回率:正确预测为正占全部正样本的比例
- F1-score:主要用于评估模型的稳健性
2.2 回归模型评估
- : 预测值
- :真实值
2.2.1 均方根误差(Root Mean Squared Error,简称RMSE)
是一种常用的误差度量方法,用于衡量预测值与真实值之间的偏差。RMSE通过计算预测值与真实值之间差异的平方和的平均值,然后取平方根来得到,从而提供一个单一的数值来反映预测的准确性。RMSE的值越小,说明模型的预测效果越好。
2.2.2 相对平方误差(Relative Squared Error,RSE)
与RMSE不同,RSE可以比较误差是不同单位的模型。
2.2.3 平均绝对误差(Mean Absolute Error,MAE)
平均绝对误差是原始值和预测值之间差异的平均值。它为我们提供了预测与实际输出相距多远的度量。然而,它们并没有给我们任何关于误差方向的概念,即我们是对数据预测不足还是预测过度。数学上表示为:
2.2.4 相对绝对误差(Relative Absolute Error,RAE)
与RSE一样,相对绝对误差(RAE)可以在不同单位测量误差的模型之间进行比较。
2.2.5 决定系数(Coefficient of Determination)
R2描述了回归模型所解释的因变量方差在总方差中的比例。R2很大,即自变量和因变量之间存在线性关系,如果回归模型是“完美的”,SSE为零,则R2为1。R2小,则自变量和因变量之间存在线性关系的证据不令人信服。如果回归模型完全失败,SSE等于SST,没有方差可被回归解释,则R2为零。