统计学习:也称为统计机器学习,是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。
特点:(1)以计算机及网络为平台,建立在计算机及网络之上
(2)以数据为研究对象,是数据驱动的学科
(3)目的是对数据进行预测和分析
(4)以方法为中心
(5)是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科
对象:数据
目的:对数据预测使计算机更加智能化,性能得到提高;对数据分析让人们获得新的知识,给人们带来新的发现
方法:监督学习、非监督学习、半监督学习和强化学习等组成(本书主要讨论监督学习)
监督学习的统计学习方法:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且要假设学习的模型属于某个函数的集合,称为假设空间。应用某个评价准则,从假设空间中选取一个最优的模型。使它对已知训练数据和未知测试数据在给定的评价准则下有最优的预测
监督学习:计算机的系统具有输入和输出,而不是学习的输入输出
输入输出空间:输入与输出所有可能值的集合(有限元素集合、整个欧式空间、可以是同一个空间、不同空间。通常输入空间大于输出空间)
输入与输出变量均为连续变量的预测问题成为回归问题;输入输出变量为有限个离散变量的预测问题为分类问题;输入输出变量均为变量序列的预测问题成为标注问题
假设空间:模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。
统计学习三要素:模型 策略 算法
模型:由决策函数表示的模型为非概率模型。由条件概率表示的模型为概率模型。
策略:按照什么样的准则学习和选择最优的模型。损失函数:度量模型一次预测的好坏。风险函数:度量平均意义下的模型预测的好坏。
损失函数(代价函数):度量预测错误的程度。f(X)和Y的非负实值函数,记作L(Y,f(X))。
常用损失函数:
(1)0-1损失函数(0-1 loss function):
(2)平方损失函数(quadratic loss function)
L(Y,f(X)) = (Y-f(X))^2
(3) 绝对损失函数
L(Y,f(X)) = |(Y-f(X)|
(4)对数损失函数
L(Y, P(Y|X)) = -logP(Y|X)
风险函数度量平均意义下模型预测的好坏,风险函数又叫期望损失,她是损失函数的期望值。学习的目标就是选择期望风险最小的模型。经验风险是模型关于训练样本集的平均损失。根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。但是训练样本数量往往有限,甚至很小,所以要对经验风险进行一定的矫正。监督学习的两个基本策略:经验风险最小化,结构风险最小化。
算法:指学习模型的具体计算方法。从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。此时,统计学习问题归结为最优化问题。
模型评估与模型选择:训练误差与测试误差。过拟合是指学习时选择的模型所包含的参数过多,以致于这一模型对已知数据预测的很好,但对未知数据预测的很差的现象,可以说模型选择旨在避免过拟合并提高模型的预测能力。
正则化与交叉验证:这个是两种常用的模型选择方法。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项值越大。正则化项是模型参数向量的范数。
S折交叉验证:将已知数据切分为S个互不相交大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的子集测试模型。将这一过程对可能的S种选择重复进行,最后选出S次评测中平均误差最小的模型。
泛化能力:该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
生成模型与判别模型:监督学习方法又可以分为生成方法和判别方法,学到的模型分别称为生成模型和判别模型。生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布作为预测的模型,典型的生成模型有朴素贝叶斯和隐马尔科夫模型。判别方法只关心对给定的输入X,应该预测什么样的Y,典型的判别模型包括:k近邻,感知机,决策树,逻辑斯蒂回归,最大熵,svm,adaboost和条件随机场。
分类问题:评价指标:精确率,召回率,准确率
监督学习一般使用两种类型的目标变量:标称型和数值型
标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)
数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)