《统计学习方法》
读李航老师之《统计学习方法》一书乃做此笔记。强烈推荐此书,对于从事机器学习、人工智能等计算机热门领域的学者定会受益颇深。
统计学习方法概论
1,统计学习(statistical learning)
概念:计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析
特点:建立在计算机和网络之上;以数据为研究对象;对数据进行预测和分析;以方法为中心;多个领域的交叉学科。
对象:数据(data)
。包括存在于计算机与网络上的各种数字、文字、图像、视频、音频以及它们的组合。
注:(统计学对于数据的基本假设是同类数据具有一定的规律性。同类数据即具有某种共同性质的数据,例如中文文章、网页等。)
目的:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测和分析,同时也应该考虑提高学习效率。
方法:
监督学习(supervised learning) | 非监督学习(unsupervised learning) | 半监督学习(semi-supervised learning) | 强化学习(reinforcement learning) |
---|---|---|---|
利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程(百度百科监督学习)。预测过程需要训练数据集,而训练数据集往往是人工给出的(本书描述) | 在未加标签的数据中,试图找到隐藏的结构(百度百科非监督学习) | 使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作(百度百科半监督学习) | 智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏(百度百科强化学习) |
三要素:
模型(model) | 策略(strategy) | 算法(algorithm) |
---|---|---|
模型的假设空间(假设要学习的模型属于那个函数的集合) | 模型选择的准则(从假设空间中选取一个最优的算法) | 模型学习的算法(最优模型选取由算法实现) |
实现统计学习方法的步骤:
2,监督学习
对于预测任务给予不同的名称,把问题可以分为三大类:
类别 | 定义 | 算法 | 应用 |
---|---|---|---|
回归问题 | 输入变量与输出变量均为连续变量的预测问题 | 等价于函数拟合问题、最小二乘法 | 市场趋势预测、产品质量预测等商务领域 |
分类问题 | 输出变量为有限个离散变量的预测问题 | k近邻法、感知机、朴素贝叶斯、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络 | 文本分类、入侵检测、图像处理\ |
标注问题 | 输入变量和输出变量均为变量序列的预测问题 | 隐马尔科夫模型、条件随机场 | 信息抽取、自然语言处理 |
监督学习中关于数据的基本假设:训练数据和测试数据是依联合概率分布独立同分布
产生的。
3,统计学习三要素
模型:模型是所要学习的条件概率分布或决策函数。
决策函数表示的模型 | 非概率模型 |
---|---|
条件概率表示的模型 | 概率模型 |
策略:
损失函数度量模型的一次预测的好坏 |
---|
风险函数度量平均意义下的模型预测好坏 |
损失函数(loss function):(f(X)为预测值;Y为实际值)
- 0-1损失函数(0-1 loss function):
- 平方损失函数(quadratic loss function)
- 绝对损失函数(absolute loss function)
- 对数损失函数(logarithmic loss function)
风险函数(risk function):损失函数的期望/期望风险
经验风险(empirical risk):训练数据集的平均损失
学习的目标就是选择期望风险最小的模型
,但是联合分布P(X,Y)是未知的,期望损失不能直接计算出来。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。自然我们会想到使用经验风险来估计期望风险。为了让经验风险更加准确这里会使用两种基本策略:经验风险最小化、结构风险最大化。
经验风险最小化(empirical risk minimization,ERM) | 经验风险最小的模型是最优模型。 | 当样本容量足够大时,可以有一个很好的学习效果;当样本空间很小时,会出现过拟合(over-fitting)现象。 | 当模型为条件概率分布,损失函数是对数损失函数时,等价于极大似然估计 |
---|---|---|---|
结构风险最大化(structural risk minimization,SRM) | 正则化(regularization) | 防止过拟合 | 当模型为条件概率分布,损失函数是对数损失函数时,等价于最大后验概率估计。 |
过拟合:选择的模型所包含的参数过多,以至于出现模型对已知数据预测效果很好,但对于未知数据预测效果很差。
算法:学习模型的具体计算方法
。
统计学习可以使用已有的最优化算法
,有时也需要开发独自的最优化算法。
4,正则化与交叉验证
正则化的作用是选择经验风险与模型复杂度同时较小
的模型
交叉验证的作用的将数据集分为三部分(训练集、验证集、测试集
)使得训练效果更好
类别 | 定义 |
---|---|
简单交叉验证 | 将数据分为训练集和测试集 |
S折交叉验证 | 将数据分为S个互不相交的大小相同的子集;使用S-1个子集作为训练集,余下的一个作为测试集 |
留一交叉验证 | S折交叉验证的特殊情况。S=N(N为数据集容量) |
5,泛化能力
泛化能力:由该方法学习到的模型对未知数据的预测能力
泛化误差上界:对于泛化能力的分析。性质:样本容量的函数,当样本容量增加时,泛化上界趋于0;假设空间容量的函数,假设空间容量越大,模型就越难学,泛化上界越大。
6,生成模型与判别模型
方法 | 函数 | 算法 | 特点 |
---|---|---|---|
生成方法(generative approach) | 学习联合概率分布P(X,Y),即生成模型 | 朴素贝叶斯法、隐马尔科夫模型 | 收敛速度更快 |
判别方法(discriminant approach) | 学习决策函数f(X)或者条件概率分布P(Y | X),即判别模型 | k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场 |
("Whatever happens,we're a family" --happy mid-Autumn Festival
)