什么是监督学习?
给定一个样本集合
- 特征
- 标签
我们希望找到下面的一个映射关系
示例
可以由以下几个简单函数叠加得到
三个臭皮匠顶个诸葛亮
加法模型(Additive Model)
另一种形式,
-
为基函数
-
为基函数系数
有了模型,接下来如何做?
objective & loss
定义模型的优化方向,也称损失
一些损失函数,例如
接下来问题是,如何做 ?
怎样求解这个模型
关键是如何求解损失函数
直接计算复杂度很高,换种形式
采用贪心的方法,将同时求解
前向分布算法
forward stagewise additive modeling
- initialize
- for
- compute
- update
- compute
-
AdaBoost
当损失函数是指数函数时
其中,
求解,
令
由于,
带入得到,
求解
接着带入
已知,
计算得
算法描述
AdaBoost.M1 (Discrete AdaBoost)
initialize
for m = 1 to M:
fit classifierto training data using weights
compute error rate
compute
update
output
in Adaboost,“shortcomings” are identified by high-weight data points
另一种思路
我们要通过分布迭代的方式求解
这个场景可以很容易想到一个经典的迭代求解算法 — 梯度下降
什么是梯度?
函数增长最大的方向
一阶泰勒展开
令
其中,
在
令
于是,
即,
整理公式,
得到,
其中,
gradient boost
在有限样本空间中,
即,
求解,
通过线性搜索方法求解,
算法描述
gradient boost
-
- for
-
一个简化的计算方法,可以直接用
此时,我们将学习目标
变成了一个回归问题
特点
不需要基函数对可导
可以适用于不同问题的损失函数
In Gradient Boosting,“shortcomings” are identified by gradients
参考
http://www.chengli.io/tutorials/gradient_boosting.pdf
https://statweb.stanford.edu/~jhf/ftp/trebst.pdf
https://explained.ai/gradient-boosting/L2-loss.html
https://blog.csdn.net/xsqlx/article/details/51330627
《统计学习方法》-李航
《Machine Learning A Probabilistic Perspective》