1.2 监督学习
输入变量和输出变量 均为连续:回归问题
输出变量 离散的为分类问题
输入变量和输出变量均为 变量序列的为标注问题
标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列,即分类-》一个值,标注-》 一个向量
监督学习的目的:在于学习一个由输入到输出的映射,这一映射由模型表示
1.3 统计学习三要素
方法=模型+策略+算法
模型:就是所要学习的条件概率分布或决策函数。
策略:使用什么准则学习或选择最优模型
损失函数(风险函数):度量预测错误的程度,非负数值函数
损失函数(风险函数):度量预测错误的程度,非负数值函数
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数(对数似然损失函数):-logP(Y|X)
风险函数或期望损失就是损失函数的期望,学习的目标就是选择期望风险最小的模型
模型f(X)关于训练数据集的平均损失称为经验风险(经验损失)
经验风险最小化 和 结构风险最小化
经验风险最小:最优模型 如极大似然估计,但是当样本小的时候,会出现过拟合
经验风险最小:最优模型 如极大似然估计,但是当样本小的时候,会出现过拟合
结构风险最小化SRM:为了防止过拟合提出 ==等价于正则化
就在经验风险上加上表示模型复杂度的正则化项或罚项,J(f)为模型复杂度,模型越复杂,J(f)越大
算法:学习模型的具体计算方法
就在经验风险上加上表示模型复杂度的正则化项或罚项,J(f)为模型复杂度,模型越复杂,J(f)越大
算法:学习模型的具体计算方法
1.4 过拟合
过拟合:一味追求提高对训练数据的预测能力。指学习时选择的模型多包涵参数过多
模型越复杂,训练误差越小,测试误差会先减小后增大
1.5 正则化
结构风险最小化的实现,加入罚项
交叉验证
训练集:训练模型
验证集:选择模型
测试集:评估模型
简单交叉验证
S折交叉验证
留一交叉验证:S=N的S折交叉验证
训练集:训练模型
验证集:选择模型
测试集:评估模型
简单交叉验证
S折交叉验证
留一交叉验证:S=N的S折交叉验证
1.6 泛化能力
泛化能力是指由该方法学习到的模型对未知数据的预测能力。
主要是通过测试误差来评价学习方法的泛化能力。
泛化误差上界有两部分相加组成:1.训练误差,正相关性 2.N的单调递减函数
主要是通过测试误差来评价学习方法的泛化能力。
泛化误差上界有两部分相加组成:1.训练误差,正相关性 2.N的单调递减函数
1.7 生成模型与判别模型
监督学习方法又可以分为
生成方法 与
判别方法 。
所学到的模型分别叫做 生成模型 与 判别模型 。
所学到的模型分别叫做 生成模型 与 判别模型 。
生成方法是有数据学习联合概率分布,然后求P(Y|X)
典型的生成模型有:朴素贝叶斯和隐马尔可夫模型
判别方法由数据直接学习决策函数或者P(Y|X)作为预测的模型
判别分析关心的是对给定的X,应该预测怎样的Y
典型的判别模型:k邻近、决策树、最大熵模型、SVM、提升方法、条件随机场、逻辑斯蒂回归模型
典型的生成模型有:朴素贝叶斯和隐马尔可夫模型
判别方法由数据直接学习决策函数或者P(Y|X)作为预测的模型
判别分析关心的是对给定的X,应该预测怎样的Y
典型的判别模型:k邻近、决策树、最大熵模型、SVM、提升方法、条件随机场、逻辑斯蒂回归模型
区别:
1. 生成方法可以还原联合概率分布P(X,Y),判别不能
2. 生成方法学习收敛速度更快,样本容量增加的时候,学习的模型能够更快的收敛于真是模型
3. 当存在隐变量的时候,可以用生成方法,判别不能
1. 生成方法可以还原联合概率分布P(X,Y),判别不能
2. 生成方法学习收敛速度更快,样本容量增加的时候,学习的模型能够更快的收敛于真是模型
3. 当存在隐变量的时候,可以用生成方法,判别不能
4. 直接学习决策函数或者P(Y|X)作为预测的模型,精确率更高
5. 判别方法可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题
5. 判别方法可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题
1.8 分类问题
精准率与召回率
TP:T->T
FN:T->F
FP:F->T
TN:F->F
FN:T->F
FP:F->T
TN:F->F
准确率:TP+TN/ALL
精准率:P=TP/(TP+FP)
召回率:R=TP/(TP+FN)
F1值:上面两个的调和平均:2/F1=1/P+1/R
学习方法:k近邻、感知机、朴素贝叶斯、神经网络、Winnow
1.9 标注问题
分类问题的推广:标注问题的输入是一个观测序列,输出是一个标记序列或状态序列
统计学习方法:隐马尔科夫模型、条件随机场
举个例子:给一个单词组成的英文句,分析每个单词的词性
1.10 回归问题
用于预测输入变量和输出变量之间的关系,等价于函数拟合
按照输入变量的个数,分为一元回归和多元回归
按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归
损失函数为平方损失函数,可由最小二乘法来解决