统计学习及监督学习概论
1.1统计学习
统计学习的概念:
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也成为统计机器学习。
统计学习的特点:
(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的;
(2)统计学习以数据为研究对象,是数据驱动的学科;
(3)统计学习的目的是对数据进行预测与分析;
(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域交叉的学科,并且在发展中逐步形成独自的理论体系与方法论。
统计学习方法的步骤:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解的最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
1.2 统计学习的分类
1.2.1 基本分类
主要包括监督学习、无监督学习和强化学习。有时还包括半监督学习和主动学习。
(1)监督学习:supervised learning 是指从标注数据中学习预测模型的机器学习问题。
监督学习分为学习和预测两个过程,由学习系统和预测系统完成,可以用下图来表示。
(2)无监督学习(非监督模型):unsupervised learning 是指从无标注数据中学习预测模型的机器学习问题。
(3)强化学习:reinforcement learning 是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
(4)半监督学习:semi-supervised learning 是指利用标注数据和未标注数据学习预测模型的机器学习问题。
(5)主动学习:active learning 是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
1.2.2 按模型分类
1. 概率模型与非概率模型
在监督学习中,概率模型取条件概率分布形式P(y|x),非概率模型取函数形式y=f(x),其中x为输入,y为输出。//可相互转换。
在非监督学习中,概率模型取条件概率分布式形式P(z|x)或P(x|z),非概率模型取函数形式z=g(x),其中x为输入,z为输出。
概率模型:决策树、朴素贝叶斯、隐马尔科夫模型、条件随机场、概率潜在语义分析、潜在迪利克雷分配、高斯混合模型。
非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析,神经网络。
2. 线性模型与非线性模型
特别是非概率模型,可以分为线性模型和非线性模型。如果函数y=f(x)是线性函数,模型就是线性模型。
线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析。
非线性模型:核函数支持向量机、AdaBoost、神经网络。
3. 参数化模型与非参数化模型
参数化模型假设模型参数的唯独固定,模型可以由有限维参数完全刻画;
非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增大而不断增大。
参数化模型:感知机、朴素贝叶斯、逻辑斯递回归,k均值、高斯混合模型、潜在语义分析、概率潜在语义分析、潜在迪利克雷分配。
非参数化模型:决策树、支持向量机、Adaboost、k近邻。
1.2.3 按算法分类
在线学习:online learning 每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。
批量学习:batch与在线学习对应,批量学习一次性接受所有数据,学习模型,然后进行预测。
1.2.4 按技巧分类
1. 贝叶斯学习 bayesian learning
在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并利用这个原理进行模型的估计,以及对数据的预测。
2. 核方法 kernel method
使用核函数表示和学习非线性模型的一种机器学习方法,可用于监督学习和无监督学习。
1.3 统计学习方法三要素
统计学习方法都是由模型、策略和算法构成的。即 方法=模型+策略+算法
1.3.1 模型
在监督学习中,模型就是所要学习的条件概率或决策函数
假设空间:包含所有可能的条件概率分布或决策函数。
1.3.2 策略
首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
下述损失函数中,X为给定的输入、f(X)为预测值、Y为真实值
统计学习中常用的损失函数:
1. 0-1损失函数(0-1 loss function)
2. 平方损失函数(quadratic loss function)
3. 绝对损失函数(absolute loss function)
4. 对数损失函数(logarithmic loss function) \ 对数似然损失函数(log-likelihood loss function)
经验风险最小化与结构风险最小化:
经验风险最小化的策略认为,经验风险最小的模型是最优的模型。
结构风险最小化是为了防止过拟合而提出来的策略。
1.3.3 算法
算法是指学习模型的具体计算方法。
1.4 模型评估与模型选择
1.4.1 训练误差与测试误差
训练误差是模型Y=f(X)关于训练数据集的平均损失;测试误差是模型Y=f(X)关于测试数据集的平均损失。
1.4.2 过拟合与模型选择
过拟合:over-fitting 一味追求提高对训练数据的预测能力,会导致学习时选择的模型所包含参数过多,复杂度就会比真模型更高。以至于出现这一模型对已知数据预测得很好,但对未知数据预测很差的现象。
解决过拟合的方法:增加样本量、正则化、交叉验证。
1.5 正则化与交叉验证
1.5.1 正则化
看不懂,先跳。
1.5.2 交叉验证
将数据集随机的切分成三部分,分别为训练集(训练模型)、验证集(选择模型)、测试集(评估模型)。
但由于实际中的数据并不充分,为了选择更好的模型,可以选择交叉验证。交叉验证的最基本思想是重复的使用数据,把给定的数据进行切分,将切分的数据分为数据集组合为训练集和测试集,在此基础上进行反复的训练、测试,然后进行模型选择。
1. 简单交叉验证
随机的把已知数据分为两部分,一部分作为训练集,一部分作为测试集;然后用训练集在不同条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
2. S折交叉验证
S折交叉验证被应用最多,首先随机的将已知数据切分为S个互不相交但大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程的S种选择重复进行,最后选出S次测评中平均测试误差最小的模型。
3. 留一交叉验证
S折交叉验证的特殊情形是S=N,往往在数据缺乏的情况下使用。这里N是给定数据集的容量。
1.6 泛化能力
1.6.1 泛化误差
学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力。
泛化误差越小,方法就越有效。
1.6.2 泛化误差上界
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界。
泛化误差上界的性质:它是样本容量的函数,当样本容量增加时,泛化上界趋于零;它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
看不懂,后面再补
1.7 生成模型与判别模型
监督学习的任务就是学习一个模型,应用这个模型对给定的输入预测对应的输出。这个模型的一般形式为决策函数:Y=f(X) 或者条件概率分布:P(Y|X)
生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:
判别方法:由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。
1.8 监督学习应用
分类问题、标注问题、回归问题
1.8.1 分类问题
分类问题包括学习和分类两个过程。
分类器 classifier:监督学习从数据中学习一个分类模型或分类决策函数;
分类 classification:分类器对新的输入进行输出的预测;
类别 class :可能的输出。
1.8.2 标注问题
标注 tagging 也是一个监督学习问题。可以认为标注问题是分类问题的一个推广。被广泛应用于自然语言处理领域
1.8.3 回归问题
回归问题分为学习和预测两个过程。
回归 regression:用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归模型表示从输入变量到输出变量之间的映射函数。
按照输入变量的个数,回归问题可以分为一元回归和多元回归;
按照输入变量和输出变量的关系的类型,回归问题可以分为线性回归和非线性回归;