1.1 统计学习
1、定义:计算机系统通过数据及统计方法提高系统性能的机器学习。
2、特点:1)以计算机及网络为平台;2)以数据为研究对象;3)目的是对数据进行预测与分析;4)以方法为中心;5)多领域的交叉学科。
3、基本假设:同类数据具有一定的统计规律。——>统计学习的前提
4、三要素
1)模型:模型的假设空间
2)策略:模型选择的准则
3)算法:模型学习的算法
5、实习步骤:
1)得到一个有限的训练数据集合
2)确定假设空间
3)确定策略
4)确定算法
5)选择最优模型
6)对新数据进行预测/分析
6、种类
1)监督学习
2)非监督学习
3)半监督学习
4)强化学习
1.2 监督学习
1、任务:学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
2、基本概念
1)输入/输出空间:输入/输出所有可能值的集合。【实例:是每个具体的输入】
特征空间:所有特征向量存在的空间。【特征向量:实例通常的表示形式】
Tip:特征空间和输入空间不一定相同,特征空间有可能是输入空间通过实例的映射。
2)样本点\样本: 输入与输出对。
3)类型
①回归:输入和输出都是连续变量。
②分类:输出是有限个的离散变量。
③标注:输入和输出都是变量序列。
4)联合概率分布
输入和输出具有联合概率分布的假设是监督学习关于数据的基本假设。
3、问题的形式化:监督学习分为学习和预测两个过程。
1.3 统计学习三要素
1、模型
1)概念:所要学习的条件概率分布函数或者决策函数。
2)假设空间:所有可能的条件概率分布或决策函数的集合。即模型的集合
3)参数空间:参数取值于n维欧式空间:
2、策略
1)损失函数:度量模型一次预测的好坏。
(1)常用的类型:
①0-1 损失函数:
②平方损失函数:
③绝对损失函数:
④对数损失函数:
2)风险函数\期望损失:度量平均意义下模型预测的好坏。
(1)数学表达:
(2)类型
①经验风险
②结构风险
(3)策略
①经验风险最小化
a、数学表达
b、适用:样本足够大
c、例子:极大似然估计
d、缺陷:当样本容量很小时,易出现“过拟合”现象。
②结构风险最小化\正则化(SRM)
a、数学表达
b、适用:
c、例子:最大后验概率
1.4 模型评估与模型选择
1、训练误差和测试误差
2、过拟合与模型选择
1)过拟合:学习时选择的模型所含的参数过多,以致于出现这一模型对已知数据预测得很好,但是对未 知数据预测得很差的现象。
1.5 正则化和交叉验证(模型选择的方法)
1、正则化即结构风险最小化
2、交叉验证
1)基本思想:把给定的数据进行切分,将切分的数据集组合分为训练集和测试集,在此基础上反复地训 练、测试以及模型选择。
2)类型
①简单交叉验证:随机把数据分为训练集和测试集,用训练集在各种条件下训练模型得到不同模 型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
②S折交叉验证(用得最多):将数据随机分为s个互不相交且大小相同的子集,然后利用s-1个子 集的数据训练模型,剩下的子集做测试模型,做s种选择重复进行,最终选平均测试误差最小的 模型。
③留一交叉验证:S=N的S折交叉验证,N是给定的数据集的容量。
1.6 泛化能力
1、概念:由该方法学习到的模型对未知模型的预测的能力。
2、泛化误差
1)概念:这个模型对未知数据预测的误差。
2)泛化误差上界:衡量泛化能力,即学习方法的优劣。
①性质:样本容量增加,趋于0;假设空间容量越大,上界越大。
3)泛化误差上界定理证明
1.7 生成模型和判别模型
1、监督学习方法的类型
1)生成方法
①概念:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。
②典型例子:朴素贝叶斯法和隐马尔可夫模型
③特点:a、可还原P(X,Y);b、收敛速度更快;c、存在隐变量仍可行。
2)判别方法
①概念:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。
②典型例子:k近邻法、感知机、决策树等。
③特点:a、不能还原P(X|Y);b、学习准确率更高;c、可简化学习问题。
1.8 分类问题
1、概念:输出变量取有限个离散值的监督学习方法。分类模型或决策函数即为分类器。
2、评价分类器的性能指标是分类准确率,即对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
3、二分类问题指标:精确率和召回率。
1)精确率
2)召回率
3)F1值
TP——将正类预测为正类数;TN——将正类预测为负类数;FP——将负类预测为正类数;FN——将负类预测为负类数。
1.9 标注问题
1、概念:输入时观测序列,输出是标记序列或状态序列。是结构预测的简单形式。
2、典型例子:隐马尔可夫模型、条件随机场。
1.10 回归问题
1、概念:预测输入变量和输出变量之间的关系。等价于函数拟合。回归模型表示从输入变量到输出变量之间映射的函数。