集成算法:
-1. Bagging
随机森林
多个基模型的构建是基于不同数据来构建
-2. Boosting
通过迭代的形式基于之前构建好的模型,对样本数据做一定的修正,然后影响之后的模型构建,
模型构建的方向或者目的:让预测更准,让误差更小。
Adaboost
通过修正样本的权重
GBDT
通过修正样本的预测值label标签值
-3. Stacking
01_XGBoost概述
02_XGBoost安装讲解
07:29- 讲解XGBoot的官网,以及安装
03_XGBoost原理讲解一
决策树:
构建的方向:让数据集更纯,每次选择划分之后纯度变化最大的这个特征作为数据的划分特征
纯的度量指标:信息熵、gini系数、错误率、MSE、MAE
划分特征选择的衡量指标:信息增益、信息增益率
算法:
ID3
分类决策树、多分枝的决策树
C4.5
分类决策树、多分枝的决策树
CART
分类&回归的决策树、二分枝的决策树
3.1 GBDT 的目标函数![](https://i-blog.csdnimg.cn/blog_migrate/4daf0f3f2dff5efddcf9ec241373b538.png)
**43: 36 - 01:30 XGBoost公式推导
为什么要考虑损失函数?
XGBoost和GBDT比较
-1. XGBoost在GBDT的基础上加入了正则化项,防止模型过拟合
-2. XGBoost在构建的过程中考虑的二阶导函数,GBDT只考虑一阶导函数
-3. XGBoost中的决策树的构建是基于损失函数,GBDT内的决策树(CART)是基于MSE\MAE
\Gini系数....
-4. XGBoost中支持列采样(类似随机森林的方式),可以降低过拟合的情况
-5. XGBoost的并行计算指的是划分特征选择过程中是并行计算的
-6. XGBoost底层支持CART、线性回归、逻辑回归等多种算法,GBDT只支持CART。
**01:21-01:26???
解析:
1、列采样:不会取所有的值,只取部分值
2、把缺失值当做一种特征
3、并行计算指的是划分特征选择过程中是并行计算的,模型的构建还是串行的
5、底层支持CART、线性回归、逻辑回归等多种算法,GBDT只支持CART
6、一般情况下不会自定义损失函数
06_聚类算法概述_转
** 01:30- 01:51
分类: objective: binary:logistic
回归: objective: reg:linear
*01:30-01:32 01:36-01:40:15 通过官网看api
http://xgboost.readthedocs.io/en/latest/python/python_api.html#modulexgboost.sklearn
注意:
1、如果不做模型的参数调优,优先选择GBDT(相对稳定)
2、当GBDT的运行速度和运行效果达不到要求的时候,这时候使用XGBOOT(需要调参)