文章目录
第一章作为概论,主要介绍一些基本概念。
1.统计学习
统计学习或机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。
统计学习的特点:
- 统计学习以计算机及网络为平台,是建立在计算机及网络之上的;
- 统计学习以数据为研究对象,是数据驱动的学科;
- 统计学习的目的是对数据进行预测与分析;
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
- 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学多个领取的交叉学科,并在发展中逐步形成独立的理论体系与方法论。
统计学习的对象:
统计学习研究的对象是数据。
统计学习的目的:
统计学习的目的是用于对数据的预测与分析,尤其是未来数据的预测与分析
统计学习的方法:
- 监督学习
- 无监督学习
- 强化学习
一般步骤如下:
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新的数据进行预测与分析
2.统计学习的分类
2.1.基本分类
-
监督学习:是指从标注数据中学习预测模型的机器学习问题,本质是学习输入到输出的映射的统计规律;
-
无监督学习:是指从没有标注的数据中学习预测模型的机器学习问题,本质是学习数据中的统计规律或潜在的结构;
-
强化学习:是指智能系统在于环境的连续互动中学习最优行为策略的机器学习问题,本质是学习最优的序贯策略。
2.2.按模型分类
- 概率模型与非概率模型
- 线性模型与非线性模型
- 参数化模型与非参数化模型
2.3.按算法分类
- 在线学习
- 批量学习
2.4.按技巧分类
- 贝叶斯学习
- 核方法
3.统计学习方法的三要素
统计学习方法都是由模型、策略和算法构成,即为统计学习方法由三要素构成,可以简单的表示为:
方法=模型+策略+算法
3.1. 模型
在监督学习过程中,模型就是所有要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
3.2. 策略
- 损失函数和风险函数
- 经验风险最小化与结构风险最小化
3.3. 算法
算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑根据什么样的计算方法求解最优模型。
4.模型评估与模型选择
4.1. 训练误差与测试误差
4.2. 过拟合与模型选择
当假设空间含有复杂度不同的模型时,就要面临模型选择的问题。
【这一节有函数曲线拟合,可以试着用代码实现】
5.正则化与交叉验证
5.1.正则化
模型选择的典型方法就是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。
正则化一般具有如下形式:
5.2.交叉验证
另外一种常见的模型选择方法是交叉验证。
如果给定的样本数据充足,进行模型选择的一种简单方法就是随机将数据集分为三部分,分别是训练集、验证集和测试集。其中训练集用于训练模型,验证集用于模型的选择,测试集用于对最终学习方法的评估。
常规有以下三种形式:
- 简单的交叉验证
- S折交叉验证
- 留一交叉验证
6.泛化能力
6.1.泛化误差
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
6.2.泛化误差上界
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界。
本节涉及1个泛化误差上界定理:对二类分类问题,当假设空间是有限个函数的集合F={f1,f2,f3,…,fd},对于任意一个函数f∈F,至少以概率1-δ ,0<δ<1,以下不等式成立:
不等式(1.32)中左侧R(f)是泛化误差,右侧即为泛化误差上界。
【证明过程自行读书多看多推理】
7.生成模型与判别模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数:
Y= f(X)
或者条件概率分布:
P(Y/X)
监督学习方法又可以分为生成方法和判别方法。对应所学到的模型分别称为生成模型和判别模型~
8.监督学习的应用
监督学习在应用上主要在三个方面:分类问题、标注问题和回归问题。
8.1.分类问题
分类是监督学习的一个核心问题。在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。
分类问题我们常见的统计学习方法有:K近邻、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。
8.2. 标注问题
标注也是一个监督学习问题。可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测问题的简单形式。在标注问题中,输入是一个观测序列,输出是一个标记序列或状态序列。
标注问题常用的统计学习方法有:隐马尔可夫模型、条件随机场等。
8.3. 回归问题
回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生的变化。
回归问题常见的统计学习方法有:最小二乘法等