1.机器学习概述
1.1机器学习三个任务
1. 回归
回归任务是通过若干带有标注的样本数据构造出一个预测模型𝑅(𝑋),使得𝑅(𝑋)的预测输出尽可能符合真实值,并称𝑅(𝑋)为回归模型。
2. 分类
分类任务的目标是通过训练样本构建合适的分类器𝐶(𝑋),完成对目标的分类。
回归或分类机器学习任务的本质就是寻找一个从输入空间到输出空间的映射,并将该映射作为预测模型。
3. 聚类
物以类聚
区别
聚类任务的先验信息为示例,即不带标注的样本
而回归和分类任务的先验信息均为带标注的样本。
1.2三种基本方式(依据先验信息的不同形式)
1. 监督学习
2. 无监督学习
通过比较样本之间的某种联系实现对样本的数据分析
区别
最大区别:样本是否有标记
3. 强化学习
根据反馈信息来调整机器行为以实现自动决策的一种机器学习方式。
1.3 误差分析
通常需要构造损失函数用于度量模型对于单个样本的输出误差
训练误差:模型在训练集上的误差。
泛化误差(测试误差):在新样本上的误差。
模型的泛化误差等于模型输出偏差平方与方差之和
过拟合
解决方法:
- 正则化
- 通过增大数据集改善过拟合
- dropout—训练过程中丢弃部分神经元
1.4模型评估
1.性能度量指标
𝑅𝑂𝐶曲线下方面积指标称为𝐴𝑈𝐶指标。在一般情况下,模型所对应的𝐴𝑈𝐶值越大,则该模型的平均性能就越好。
2.模型评估方法
留出法
直接从样本数据集𝐷中随机划分出部分数据组成训练样本集𝑆,剩下部分作为测试样本集𝑇用于估计模型的泛化误差。
𝐾折交叉验证法
首先将数据集𝐷等分为𝐾子集𝐷_𝑖 (𝑖=1,2,…,𝐾),然后依次保留其中一个子集作为测试集𝑇,而将其余𝐾−1个子集合进行合并后作为训练集𝑆。
自助法
当𝐷中样本数量较少,通过对𝐷中样本进行可重复随机采样的方式构造训练集和测试集