机器学习基础知识

1.1 统计学习

1. 统计学习的特点

2. 统计学习的对象

对象是数据,关于数据的基本假设是同类数据具有一定的统计规律性

3. 统计学习的目的

对数据进行预测与分析,通过构建概率统计模型实现

4. 统计学习的方法

监督学习非监督学习 半监督学习 强化学习

模型、策略、算法

步骤:

(1)得到有限训练数据集合

(2)确定包含所有可能的模型的假设空间,即学习模型的集合

(3)确定模型选择的准则,即学习策略

(4)实现求解最优模型的算法,即学习的算法

(5)通过学习方法选择最优模型

(6)利用学习的最优模型对新数据进行预测或分析

5. 统计学习的研究

方法、理论、应用

6. 统计学习的重要性

 

1.2 监督学习

1.2.1 基本概念

1. 输入空间、特征空间与输出空间

输入与输出所有的可能取值的集合分别称为输入空间与输出空间

每个具体的输入是一个实例,通常由特征向量表示

所有特征向量存在的空间成为特征空间

特征空间可以是输入空间,也可以由输入空间映射得到

模型是定义在特征空间上

输入变量X 输出变量Y

输入变量的取值x 输出变量的取值y


训练数据由输入输出对组成:

 

测试数据也由相应的输入输出对组成,输入输出对又称为样本或样本点

输入变量X和输出变量Y可以是连续的,也可以是离散的

X和Y均为连续变量的预测问题称为回归问题,Y为有限个离散变量的预测问题称为分类问题,X和Y均为变量序列的预测问题称为标注问题

 

2.联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数,或分布密度函数,这个联合概率分布是未知的,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设

 

3. 假设空间

监督学习的目的在于学习一个由输入到输出的映射,这个映射由模型来表示

模型是输入空间到输出空间映射的集合,这个集合就是假设空间

监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,对具体的输入进行相应的输出预测时,写作P(y|x)或y=f(x)

 

1.2.2 问题的形式化


首先给定一个训练数据集

 

 , i=1,2,…,N, 称为样本点

监督学习中,假设训练数据与预测数据是依联合概率分布P(X,Y)独立同分布产生的

 

1.3 统计学习三要素

方法=模型+策略+算法

 

1.3.1 模型

模型就是所要学习的条件概率分布或决策函数

模型的假设空间包含所有可能的条件概率分布或决策函数

假设空间用F表示

由决策函数表示:F={f|Y=f(x)}

由条件概率表示:  F={P|P(Y|X)}

 

1.3.2 策略

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏

1. 损失函数和风险函数

损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X))

(1)0-1损失函数

 

(2)平方损失函数

 

(3)绝对损失函数

 

(4)对数损失函数

 

 

损失函数的期望是:

 

称为风险函数,或期望损失

学习的模板是选择期望风险最小的模型

但是不知道联合分布,无法计算

 

f(X)关于训练数据集的平均损失称为经验风险,或经验损失:

 

期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失

根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险

由于训练样本数目有限,需要对经验风险进行矫正,使用两个基本策略:经验风险最小化和结构风险最小化

 

2. 经验风险最小化和结构风险最小化

在假设空间、损失函数以及训练数据集确定的情况下,经验风险最小的模型是最优模型。

当样本容量足够大时,经验风险最小化能保证有很好的学习效果

当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计

当样本容量很小时,经验风险最小化学习的效果未必很好,会产生过拟合

为了防止过拟合,提出结构风险最小化策略

结构风险最小化等价于正则化

结构风险在经验风险上加上表示模型复杂度的正则化项或罚项

结构风险的定义是:

 

其中J(f)为模型的复杂度,是定义在假设空间F上的泛函,模型f越复杂,复杂度J(f)越大

 是系数,用来权衡经验风险和模型复杂度

结构风险小需要经验风险与模型复杂度同时小

结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测

贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子,当模型条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险的最小化就等价于最大后验概率估计

结构风险最小化的策略认为结构风险最小的模型是最优的模型,所以求最优的模型,就是求解最优化问题:

 

 

1.3.3 算法

算法是指学习模型的具体计算方法,为求解最优化问题的算法。

 

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

统计学习方法具体采用的损失函数不一定是评估是使用的损失函数,但两者一致比较理想

训练误差:

 

测试误差:

 

将学习方法对未知数据的预测能力称为泛化能力

 

1.4.2 过拟合与模型选择

模型选择旨在避免过拟合并提高模型的预测能力

 

1.5正则化与交叉验证

1.5.1正则化

正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项

正则化项一般是模型复杂度的单调递增函数

正则化一般具有如下形式


第一项是经验风险,第二项是正则化项

 

范数 http://blog.csdn.net/zouxy09/article/details/24971995/

 

奥卡姆剃刀原理:在所有可能选择的模型中,能够很好解释已知数据并且十分简单才是最好的模型

 

1.5.2 交叉验证

样本数据充足时,随机地将数据集切分为三部分,分别为训练集、验证集和测试集

训练集用来训练模型,验证集用于模型的选择,测试集用于最终对学习方法的评估

在学到不同复杂度的模型中,选择对验证集有最小预测误差的模型

但是,在很多实际应用中数据不充足。交叉验证的基本想法是重复地使用数据,将数据切分成训练集与测试集,在此基础上反复地进行训练、测试以及模型选择

 

1. 简单交叉验证

首先随机地将已给数据分成两个部分,一部分作为训练集,另一部分作为测试集;然后用训练集在各种条件下训练模型,得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型

2. S折交叉验证

将数据切分为S个互不相交的大小相同自己;利用S-1个子集训练,用剩下的自己测试;重复S次;选出平均测试误差最小的模型

3. 留一交叉验证

S=N的特殊情况,在数据缺乏的情况下使用

 

1.6 泛化能力

1.6.1 泛化误差

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力

用模型f对未知数据预测的误差即为泛化误差

 

泛化误差就是所学习到的模型的期望风险

1.6.2 泛化误差上界

泛化误差概率上界检查泛化误差上界,具有如下性质:

是样本容量的函数,样本容量增加时,泛化上界趋于0;是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界就越大

 

定理1.1(泛化误差上界)对二分类问题,当假设空间是有限个函数的集合F={f1, f2, ..., fd}时,对任意一个函数 ,至少以概率 ,以下不等式成立:

 


 

1.7 生成模型与判别模型

监督学习的任务是学习一个模型,模型的一般形式为决策函数:

 Y=f(x)

或者条件概率分布:

 P(X,Y)

监督学习方法又可以分为生成方法和判别方法

生成方法由数据学习联合概率分布P(X|Y),然后求出条件概率分布P(X|Y)作为预测的模型,即生成模型:

P(X|Y) = P(X,Y) / P(X)

这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系

典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型

 

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。

典型的判别模型包括:k近邻、感知器、决策树、logistic回归、最大熵模型、支持向量机、提升方法和条件随机场

 

生成方法的特点:生成方法可以还原出联合概率分布,而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,测试判别方法不能用

 

判别方法的特定:判别方法直接学习的是条件概率或决策函数,直接面对预测,往往学习的准确率更高;由于直接学习或,可以对数据进行各种程度上的抽象、定义特征并使用特征,可以简化学习问题

 

1.8 分类问题

在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。此时,输入变量X可以是离散的,也可以是连续的。


评价分离器性能的指标一般是分类准确度

对于二类问题常用的评价指标是精确率与召回率,此外还有F1值,是精确率和召回率的调和均值

 

1.9 标注问题

标注常用的统计学习方法由:隐马尔可夫模型、条件随机场

 

1.10 回归问题


一元回归、多元回归

线性回归、非线性回归

最常用的损失函数是平方损失函数,在此情况下,回归问题可以由最小二乘法求解

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值