集成学习
文章平均质量分 56
Kyno_su
这个作者很懒,什么都没留下…
展开
-
[集成学习]案例学习
幸福感预测(分类问题)原创 2021-07-31 21:43:35 · 149 阅读 · 0 评论 -
[集成学习]Blending与Stacking集成
Blending集成将总数据集分为训练数据集与测试数据集,再将训练数据集细分成训练集与验证集。使用训练集通过SVM、random forests、XGBoost等方法创建K个模型。将验证集数据分别输入K个模型进行验证,得到K个结果,这K个结果组成一个新的训练集。将测试集数据分别输入K个模型得到K个结果,这K个结果组成一个新的测试集。使用新的训练集训练一个新模型将新的测试集输入新模型中,得到最终预测结果Stacking集成由于Blending集成方法存在浪费数据信息的缺点,这个缺点可以通原创 2021-07-28 21:38:42 · 184 阅读 · 0 评论 -
[集成学习]Boosting
思路由于在PAC学习框架下,弱可学习与强可学习等价,但强可学习算法难以找到,故我们可以通过对弱可学习算法进行改进得到强可学习算法。Adaboost算法向前分步算法梯度提升决策树XGBoostLightGBM...原创 2021-07-25 23:20:29 · 77 阅读 · 1 评论 -
[集成学习]Bagging集成
Bagging集成Boostrap抽样对于线性模型从抽样总体中抽出一个容量为n的样本,通过这n个数据得到参数Beta1的一个估计值。将该过程重复k次(自助采样),可以得到k个Beta1的估计值,利用公式可以求得Beta1的方差,以衡量该线性模型的波动性Bagging集成Bagging集成以boostrap抽样为基础。在得到beta1的k个估计值后,可以通过k个样本集得到k个y的预测值,取k个y的估计值的平均值作为最终预测值。(对于回归问题来说,最终预测值是取k个预测值的平均值,但对于分类问原创 2021-07-22 22:16:02 · 389 阅读 · 0 评论 -
[集成学习]task03:方差与偏差理论
**[集成学习]task03:方差与偏差理论**由于在建模过程中使用的是训练数据集,而我们要预测的是测试数据集,因此建立的模型不仅要在训练数据集中表现良好,还要在测试数据集中表现良好。也是就说,Loss Function的值在训练数据集与测试数据集中都是最小的。训练均方误差与测试均方误差的关系随着训练均方误差的逐渐减小,测试均方误差先减小后增大。这是由于当训练数据集的均方误差很小时,模型过拟合,缺乏泛性。估计测试均方误差估计测试均方误差时可以使用间接估计或直接估计的方法。· 间原创 2021-07-18 23:31:50 · 177 阅读 · 2 评论 -
[集成学习]task02:回归问题
[集成学习]task02:回归问题回归问题线性回归模型求解线性回归模型的参数:构建一个含有参数的 Loss Function,求解使得 Loss Function最小的参数的值。一般的 Loss Function的形式有:原创 2021-07-15 23:16:38 · 177 阅读 · 2 评论 -
[集成学习]task01:机器学习数学基础
雅可比矩阵定义:几何意义:该函数变化率最大的方向当该函数为二次函数时,其雅可比矩阵即为梯度向量。极值与二次型由二次型的知识可知:一个线性方程组可以写成如下形式,故该线性方程组的图像由矩阵A决定,以二次多项式为例:当矩阵A正定时,图像开口向上,故有极小值;当A负定时,图像开口向下,故有极大值。黑塞矩阵为正定矩阵,在该点取极小值黑塞矩阵为负定矩阵,在该点取极大值黑塞矩阵为不定矩阵,在该点不是极值点黑塞矩阵为半正(负)定矩阵,不一定是极值点最大线性无关组与矩阵的秩最大线性.原创 2021-07-13 22:55:49 · 1394 阅读 · 0 评论