陈天奇slide学习笔记

Review of key concepts of supervised learning


目标函数:
这里写图片描述
L表示模型对训练数据的拟合程度,正则化项衡量模型的复杂度。
这里写图片描述
正则化:降低模型的复杂度——L1正则化和L2正则化
这里写图片描述
不同的损失函数和正则化方法:
这里写图片描述
这里写图片描述
最小化L,能够得到最低损失的模型;最小化正则化可以得到简单模型,提高模型的稳定性。

Regression Tree and Ensemble (What are we Learning)


回归树:
● Decision rules same as in decision tree
● Contains one score in each leaf value
这里写图片描述
回归树的融合:
这里写图片描述
树融合:广泛使用,如GBM、RandomForest等。
● 与输入数据的取值范围无关,所以无需做特征归一化
● 能够学习到特征间的高维相关性
● 工业使用,扩展性好
这里写图片描述
学习的是fk(树),而不是权重w——体现gradient的思想。
目标函数以及正则项的选择:
这里写图片描述
这里写图片描述
回归树不止用于做回归,还可以做分类、排序等,主要依赖于目标函数的定义。

Gradient Boosting (How do we Learn)


这里写图片描述
f累加的方式:
这里写图片描述
使用二阶泰勒展开式来近似Loss:
这里写图片描述
忽略常量项,可以得到目标函数为:
这里写图片描述
这里写图片描述
Refine the definition of tree:
这里写图片描述
定义树的复杂度:
这里写图片描述
目标函数变为:
这里写图片描述
这里写图片描述
对于每棵树,其查找算法:
这里写图片描述
由于选择树结构是一个NP难问题,所以使用贪心机制来做树生长,根据定义的Gain来选择最佳分割。
这里写图片描述
我们只需要线性扫描排好序的样本,然后根据Gain来决定最佳分割。
这里写图片描述
这样,时间复杂度为O(ndklogn),还可以通过近似和已排序特征缓存来优化。
可以将类别属性进行one-hot编码,避免需要将连续属性和类别属性分开处理。当类别比较多时,容易得到稀疏特征,学习算法更倾向于处理稀疏数据。
剪枝和正则化:
根据Gain是否为负,做pre-stopping和post-prunnig。
这里写图片描述

没有更多推荐了,返回首页