目录
偏差与方差
- 偏差与方差分别是用于衡量一个模型泛化误差的两个方面:
- 模型的偏差,指的是模型预测的期望值与真实值之间的差;
- 模型的方差,指的是模型预测的期望值与预测值之间的差平方
- 在监督学习中,模型的泛化误差可分解为偏差、方差与噪声之和
- 偏差用于描述模型的拟合能力
- 方差用于描述模型的稳定性
导致偏差和方差的原因
- 偏差通常由于我们对学习算法做了错误的假设,或者模型的复杂度不够;
- 比如真是模型是一个二次函数,而我们假设模型为一个一次函数,这就会导致偏差的增大(欠拟合);
- 由偏差引起的误差通常在训练误差上能体现,或者说训练误差主要由偏差造成
- 方差通常是由于模型的复杂度相对于训练集过高导致的
- 比如真实模型是一个简单的二次函数,而我们假设模型是一个高次函数,这就会导致方差的增大(过拟合);
- 由方差引起的误差通常体现在测试误差相对训练误差的增量上。
深度学习中的偏差与方差
- 神经网络的拟合能力非常强,因此他的训练误差(偏差)通常较小
- 但是过强的拟合能力会导致较大的方差,使模型的测试误差(泛化误差)增大;
- 因此深度学习的核心工作之一就是研究如何降低模型的泛化误差,这类方法统称为正则化方法
生成模型与判别模型
- 监督学习的任务是学习一个模型,对给定的输入预测相应的输出
- 这个模型的一般形式为一个决策函数或一个条件概率分布(后验概率)
- Y=f(X) or P(Y|X)
- 决策函数:输入X返回Y;其中Y与一个阈值比较,然后根据比较结果判定X的类别
- 条件概率分布:输入X返回X属于每个类别的概率;将其中概率最大的作为X所属的类别
- 监督学习模型可分为生成模型与判别模型
- 判别模型直接学习决策函数或者条件概率分布
- 直观来说,判别模型学习的是类别之间的最优分隔面,反映的是不同类数据之间的差异
- 生成模型学习的是联合概率分布P(X,Y),然后根据条件概率公式计算P(Y|X)
- 判别模型直接学习决策函数或者条件概率分布
两者之间的联系
- 由生成模型可以得到判别模型,但是由判别模型得不到生成模型
- 当存在“隐变量”时,只能使用生成模型
隐变量:当我们找不到引起某一现象的原因时,就把这个在起作用,但无法确定的因素,叫做“隐变量”
优缺点
- 判别模式
- 优点
- 直接面对预测,往往学习的准确率更高
- 由于直接学习P(Y|X) 或 f(X),可以对数据进行各种程度的抽象,定义特征并使用特征,以简化学习过程
- 缺点
- 不能反映训练数据本身的特性
- 优点
- 生成模型
- 优点
- 可以还原联合概率分布P(X,Y),判别方法不能
- 学习收敛速度更快——即当样本容量增加时,学到的模型可以更快地收敛到真实模型
- 当存在“隐变量”时,只能使用生成模型
- 缺点
- 学习和计算过程比较复杂
- 优点
常见模型
- 判别模型
- K近邻、感知机(神经网络)、决策树、罗辑回归、最大熵模型、SVM、提升方法、条件随机场
- 生成模型
- 朴素贝叶斯、隐马尔可夫模型、混合高斯模型、贝叶斯网络、马尔可夫随机场
先验概率与后验概率
条件概率(似然概率)
- 一个事件发生后另一个事件发生的概率
- 一般的形式为P(X|Y),表示y发生的条件下x发生的概率
- 有时为了区分一般意义上的条件概率,也称为似然概率
先验概率
- 事情发生前预判概率
- 可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出
- 一般都是单独发生的概率,如P(A)、P(B)
后验概率
- 基于先验概率求得的反向条件概率,形式上与条件概率相同(若P(X|Y)为正向,则P(Y|X)为反向)
贝叶斯公式