统计学习方法-笔记1-概述
什么是统计学习
简言之就是基于统计学方法的机器学习,统计学方法需要基于大量数据,这是一种数据驱动的学科。
统计学习概述
分类
统计学习包括监督学习、无监督学习、强化学习。至于半监督学习和主动学习比较接近监督学习。
监督学习的数据集T的样本包含数据X(或是数据的特征),以及数据对应的输出Y(对于分类问题称为标签tag)。(注:输入空间 -> 特征空间 -> 输出空间)
无监督学习数据集U的样本仅包含数据X(或是数据的特征)。通过模型学习数据的“规律”(概率分布或映射)。
强化学习用于智能系统与环境的交互,由当前时刻t的状态st和环境的反馈rt(或称奖励、回报等)得出本时刻应该做出的行为at。
半监督学习少量标注,大量未标注。学习已标注的数据,对未标注的数据做标注。
主动学习:机器给出实例让教师标注,机器对该数据进行学习。主动学习旨在找出对学习有帮助的数据让教师标注,以较小的标注代价取得较好的学习效果。
其他分类方式:
概率模型、非概率模型
线性模型、非线性模型
参数化模型、非参数化模型
在线学习、批量学习
输出变量与输入变量
函数
条件概率
从条件概率到类别:回归问题与分类问题的联系
统计学习方法三要素
方法=模型+策略+算法
策略:损失函数、风险函数
损失函数
风险函数:
经验风险
结构风险(模型复杂度、正则化项、罚项)
算法:最优化算法
模型评估与选择
训练误差、正确率以及测试误差正确率
精确率、召回率、F1
某一类的精确率 = 该类正确预测数/被预测成该类的总数
某一类的召回率 = 该类正确预测数/实际标签种该类的总数
F1 = 精确率和召回率 的 调和平均
过拟合与泛化能力(泛化误差)
过拟合应对策略
正则化、交叉验证、
dropout、增加数据、mix up