![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
集成学习
文章平均质量分 93
Gu_NN
这个作者很懒,什么都没留下…
展开
-
GBDT梯度提升树
目录前向分步算法框架梯度提升树回归问题分类问题前向分步算法框架前向分步算法是在Adaboost基础上提出的算法框架。研究对象:加法集成模型:f(x)=∑m=1Mβmb(x;γm)f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)f(x)=m=1∑Mβmb(x;γm)其中,b(x;γm)b\left(x ; \gamma_{m}\right)b(x;γm)为即基本分类器,γm\gamma_{m}γm为基本分类器的参原创 2021-11-04 00:26:57 · 261 阅读 · 0 评论 -
Adaboost自适应提升算法
目录基本概念分类任务损失函数基本概念Adaboost(Adaptive Boosting)为自适应提升算法。基本思路为1. 提高那些被前一轮分类器错误分类的样本的权重,而降低那些被正确分类的样本的权重。2. 加大分类错误率低的弱分类器的权重分类任务损失函数对于 KKK分类问题而言,当样本标签 y=[y1,...,yK]T\mathbf{y}=[y_1,...,y_K]^Ty=[y1,...,yK]T的类别 c(y)c(\mathbf{y})c(y) 为第kkk类(k=1,...,K)(k=1,.原创 2021-10-30 21:47:13 · 574 阅读 · 0 评论 -
随机森林与孤立森林
目录随机森林随机性特征重要性out-of-bag(oob) score孤立森林随机森林随机森林是一种以决策树(常用CART树)为基学习器的bagging算法。回归问题结果:各学习器的均值分类问题结果:硬投票:基学习器预测频率最高的类别为最终结果(原论文采用方法)软投票:通过各基学习器的结果概率分布计算样本属于某个类别的平均概率,然后选择概率分布最高的类别结果(sklearn.ensemble .RandomForestClassifier采用方法)随机性样本随机:bootstra原创 2021-10-25 00:04:26 · 3642 阅读 · 0 评论 -
决策树学习
目录信息量公理三个必要条件充要函数信息熵决策树节点分裂生长模式剪枝预剪枝后剪枝(MCCP)信息量公理三个必要条件I(1)=0I(1) = 0I(1)=0必然事件不确定性为0I(p)I(p)I(p)关于ppp单调递减高概率事件的不确定性更低I(∏i=1np(Ai))=∑i=1nI(p(Ai))I(\prod \limits_{i=1}^np(A_i))=\sum \limits_{i=1}^nI(p(A_i))I(i=1∏np(Ai))=i=1∑nI(p(Ai))独立事件同原创 2021-10-12 23:23:39 · 194 阅读 · 0 评论 -
集成学习总结
目录基础模型回归分类时序空间无监督模型非结构化数据处理图片文本特征工程时间自然人为案例案例一:社会幸福感(离散变量)思路案例二:蒸汽量预测(连续变量)基础模型回归线性回归、决策树、支持向量回归分类逻辑回归、判别分析、决策树、支持向量机时序平滑、季节分解、指数预测、ARIMA空间元胞自动机、元胞自动机+马尔可夫链无监督模型聚类、PCA、高斯混合、LDA非结构化数据处理图片灰度图(0-255)彩色图(RGB:0-255)操作卷积:提取图像特征频域变换去躁增强生成原创 2021-07-31 00:32:30 · 152 阅读 · 0 评论 -
集成学习——Bagging、Boosting、Stacking
目录投票法集成学习BaggingBootstraps(题5.1)Bagging(题5.2-题5.6)BoostingStacking投票法投票法即通过对多个模型结果进行少数服从多数的融合。有助于提高模型的泛化能力,减少模型的错误率。回归模型投票法最终的预测结果是多个其他回归模型预测结果的平均值。分类模型硬投票:预测结果是多个模型预测结果中出现次数最多的类别软投票:对各类预测结果的概率进行求和,最终选取概率之和最大的类标签。投票法结果好需要满足的两个条件:基模型之间的效果不能差别原创 2021-07-23 02:03:51 · 832 阅读 · 0 评论 -
4 分类问题
目录基本概念评价指标分类和回归的区别(题1)常用模型逻辑回归线性判别分析(LDA)朴素贝叶斯决策树基本概念评价指标混淆矩阵:真阳性TP:预测值和真实值都为正例;真阴性TN:预测值与真实值都为正例;假阳性FP:预测值为正,实际值为负;假阴性FN:预测值为负,实际值为正;准确率:分类正确的样本数占总样本的比例,即:ACC=TP+TNFP+FN+TP+TNACC = \frac{TP+TN}{FP+FN+TP+TN}ACC=FP+FN+TP+TNTP+TN.精度:预测为正且分类正确的样原创 2021-07-20 21:57:18 · 768 阅读 · 0 评论 -
模型基础知识
目录偏差和方差偏差与方差之间的关系(题2)训练误差与测试误差(题3)特征选择最优子集选择向前逐步选择压缩估计(正则化)(题4)岭回归——l2正则化Lasso回归——l1正则化降维目的PCA(题5)调参基本概念参数与超参数方法案例(题8)偏差和方差偏差与方差之间的关系(题2)测试均方误差的期望值可以分解为f^(x0)\hat{f}(x_0)f^(x0)的方差 、f^(x0)\hat{f}(x_0)f^(x0)的偏差平方 和误差项ϵ\epsilonϵ的方差 。E(y0−f^(x0))2=Var原创 2021-07-19 02:51:57 · 490 阅读 · 0 评论 -
机器学习基础
文章目录基本概念回归线性回归最小二乘估计(题1、2)多项式回归(题3)广义回归模型(GAM)Case Study(题7)回归树支持向量回归优化基础知识(题5、6)SVR基本概念评价模型性能的指标均方差平均绝对误差决定系数解释方差得分: explained_variance(y,y^)=1−Var(y−y^)Var(y)explained\_variance(y,\hat{y})=1-\frac{Var(y-\hat{y})}{Var(y)}explained_variance(y,y^)=原创 2021-07-16 02:18:17 · 146 阅读 · 0 评论 -
1 基础知识
目录最优化&线代梯度最优化方法线代概率论与数理统计估计作业Rosenbrockh函数最优化&线代梯度Jacobian矩阵简单理解为多个实函数偏导组成的矩阵。梯度向量是特殊的Jacobian矩阵。Hessian矩阵多个实函数的二阶偏导数矩阵。Jacobian矩阵的导数是Hessian矩阵。多元函数极值判断Hessian矩阵负定:极大值;Hessian矩阵正定:极小值;Hessian矩阵不定:非极值;Hessian矩阵半正定或者半负定:需进一步判断;原创 2021-07-13 21:43:13 · 149 阅读 · 0 评论