写在前面
本系列博客是自己对于《统计学习方法》这本书的读书笔记,在读过每个章节以后根据自己的理解写下这一章的知识框架以及补充一些延伸知识点。
目录
本章框架
根据训练数据的线性可分、近似线性可分、线性不可分这三个程度,SVM由简单到复杂地呈现为线性可分SVM、线性SVM以及非线性SVM三种。本章先分别介绍这三种SVM,再介绍了学习算法(序列最小最优化算法)。
提升方法
强可学习与弱可学习
提升学习:将一系列弱学习算法进行综合与提升。
提升学习要考虑的两个问题:
- 每一轮如何改变训练数据的权值或概率分布
- 如何将弱分类器组合成一个强分类器
Adaboost算法
原理:学习一系列弱分类器,线性组合成一个强分类器。
具体:
- 在每一轮中更新训练数据的权值分布,提升误分类样本比重
- 线性组合,所有系数和并不为1
Adaboost的训练误差:以指数速率下降
Adaboost的算法解释:模型为加法模型、损失函数为指数函数、学习算法为前向分步算法(每步只学习一个基函数及其系数)
提升树
提升树模型:属于加法模型,采用前向分步算法,以决策树为基函数
梯度提升树(GBDT)::利用最速下降法的近似方法来实现每一步的优化,关键在于用损失函数的负梯度在当前模型的值作为回归问题中提升树算法中的残差的近似值,每一步以此来估计回归树叶结点区域以拟合残差的近似值,并利用线性搜索估计叶结点区域的值使损失函数最小化,然后更新回归树。