机器学习
文章平均质量分 78
cy^2
想开就健康了
展开
-
回归类模型评估指标选择、局限、优势
回归类模型评估指标选择、局限、优势原创 2022-06-13 10:29:41 · 908 阅读 · 0 评论 -
1、数据分布不平衡问题:定义、场景
所谓的不平衡指的是不同类别的样本量差异非常大,或者少数样本代表了业务的关键数据(少量样本更重要),需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种:在实际工程中,样本不平衡问题可能存在于以下几种场景中:工程过程中,应对样本不均衡问题常从以下三方面入手:...原创 2022-06-06 20:29:07 · 1388 阅读 · 0 评论 -
二、集成学习:Boosting 之 AdaBoost_回归问题
对于任意Boosting算法,我们都需要明确以下几点:损失函数L(x,y)L(x,y)L(x,y)的表达式是什么?损失函数如何影响模型构建?弱评估器f(x)f(x)f(x) 是什么,当下boosting算法使用的具体建树过程是什么?综合集成结果H(x)H(x)H(x)是什么?集成算法具体如何输出集成结果? 同时,还可能存在其他需要明确的问题,例如:是加权求和吗?如果是,加权求和中的权重如何求解?训练过程中,拟合的数据XXX与yyy分别是什么?模型训练到什么时候停下来最好? 同原创 2022-05-26 16:08:08 · 1259 阅读 · 0 评论 -
二、集成学习:Boosting 之 AdaBoost_分类问题
(2)Boosting 之 AdaBoostBoosting 的本质实际上是一个加法模型,通过改变训练样本权重学习多个分类器并进行一些线性组合。而 Adaboost 就是加法模型+指数损失函数+前项分布算法。Adaboost 就是从弱分类器出发反复训练,在其中不断调整数据权重或者是概率分布,同时提高前一轮被弱分类器误分的样本的权值。最后用分类器进行投票表决(但是分类器的重要性不同)...原创 2022-05-25 22:01:00 · 629 阅读 · 0 评论 -
二、集成学习:Bagging之随机森林算法(RandomForest Algorithm)
随机森林(RandomForest)一、随机森林(RandomForest)基本原理二、Out-Of-Bag Estimate 袋外数据估计泛化误差三、随机森林如何评估特征重要性。四、随机森林如何处理缺失值五、其它常见问题5.1、为什么Bagging算法的效果比单个评估器更好?5.2、为什么Bagging可以降低方差?5.3、Bagging有效的基本条件有哪些?Bagging的效果总是强于弱评估器吗?5.4、Bagging方法可以集成决策树之外的算法吗?5.5、怎样增强Bagging中弱评估器的独立性?5.原创 2022-05-19 20:29:17 · 2953 阅读 · 0 评论 -
一、集成学习概况、Boosting、Bagging、stacking介绍
11原创 2022-05-18 17:06:10 · 1092 阅读 · 0 评论 -
决策树模型: ID3 、C4.5、C5.0、CART、CHAID、Quest比较
一、决策树的核心思想 决策树:从根节点开始一步步走到叶子节点(决策),所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。树的组成 - 根节点(root node):第一个选择点,有零条或者多条出边的点; - 内部点(internal node):只有一条入边并且有两条或多条出边的点; - 叶节点(leaf node):最终的决策结果;二、决策树的分类与流派(ID3、C4.5、C5.0)如何切分特征(选择节点) 问题:根节点的选择该用哪个特征呢?接下来呢?如何切分呢?原创 2022-05-17 19:26:49 · 3326 阅读 · 0 评论 -
超参数调优HPO:网格搜索、随机搜索、 对半网格搜索、贝叶斯优化算法
禁止转载,谢谢!当代超参数优化算法主要可以分为:基于网格的各类搜索(Grid)基于贝叶斯优化的各类优化算法(Baysian)基于梯度的各类优化(Gradient-based)基于种群的各类优化(进化算法,遗传算法等)1、网格搜索gridsearch(简单且广泛)通过查找搜索范围内的所有的点来确定最优值**:指的是将备选的参数一一列出,多个不同参数的不同取值最终将组成一个参数空间(parameter space),在这个参数空间中选取不同的值带入模型进行训练,最终选取一组最优的值作为.原创 2022-04-17 21:36:21 · 1921 阅读 · 0 评论 -
L1、L2正则化与稀疏性
禁止转载,谢谢!1.正则化(Regularization)的基本概念- 什么是正则化/如何进行正则化 定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则化项,也称为惩罚性(penalty term):1N∑i=1NL(yi,f(xi))+λJ(f)\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))+\lambda J{(f)}N1i=1∑NL(yi,f(xi))+λJ(f) 其中L为损失函数,J为正则化项。通常来说,.原创 2022-03-28 22:51:48 · 1956 阅读 · 0 评论 -
分类模型评估指标选择、局限、优势
禁止转载,谢谢!分类模型作为使用场景最为广泛的机器学习模型,常用的二分类模型的模型评估指标有准确率(Accuracy),召回率(Recall)、F1指标(F1-Score)、受试者特征曲线(ROC-AUC)、KS曲线等一、二分类混淆矩阵(Confusion matrix)与F1-Score准确率ACC=TP+TNTP+TN+FP+FNACC=\frac{TP+TN}{TP+TN+FP+FN}ACC=TP+TN+FP+FNTP+TN 整体来看,准确率作为最为通用,也是较好的理解评估指标;.原创 2022-03-27 22:02:54 · 2241 阅读 · 0 评论 -
多分类学习(OvO、OVR、MVM 原理区别)
多分类问题解决思路,一般来说,用二分类学习器解决多分类问题,基本思想是先拆分后集成,也就是先将数据集进行拆分,然后多个数据集可训练多个模型,然后再对多个模型进行集成。这里所谓集成,指的是使用这多个模型对后续新进来数据的预测方法。 具体来看,依据该思路一般有三种实现策略,分别是“一对一”(One vs Ons,简称OvO)、“一对剩余”(One vs Rest,简称OvR)和“多对多”(Many vs Many,加成MvM)。接下来我们逐个讨论。1.OvO策略拆分策略 OvO的拆分策略比较原创 2022-03-20 20:14:46 · 3906 阅读 · 0 评论 -
逻辑回归相比于线性回归,有何异同 笔记
不同之处: (1)、两者最本质的区别是逻辑回归处理的是分类问题,线性回归处理的是回归问题;在逻辑回归中,因变量取值是一个二元分布,模型学习得出的是E[y|x;w],即给定自变量和超参数后,得到因变量的期望,并基于此期望来处理预测分类问题。而线性回归实际上求解的是y^=wTx\hat y =w^Txy^=wTx,是假设真实关系y=wTx+ϵy = w^Tx+ \epsilony=wTx+ϵ的一个近似,其中ϵ\epsilonϵ 代表误差项。 (2)、逻辑回归的因变量是离散,而线性回归中因变量是连续的。原创 2022-03-20 19:05:20 · 2307 阅读 · 0 评论 -
逻辑回归:模型构建、估计参数求解、结果解读笔记
其中g(⋅)g(·)g(⋅)为联系函数(link function),g−1(⋅)g^{-1}(·)g−1(⋅)为联系函数的反函数(如y=ex与ln(y)=xy=e^x与ln(y)=xy=ex与ln(y)=x)。而如上例中的情况,也就是当联系函数为自然底数的对数函数时,该模型也被称为对数线性模型(logit linear model)。...原创 2022-03-20 14:56:02 · 3061 阅读 · 0 评论 -
梯度下降基本原理、优势、局限、改善(SGD和BGD)笔记
对于大多数机器学习模型来说,损失函数(不是凸函数)都无法直接利用最小二乘法进行求解,经常使用梯度下降算法求解最小值。根据梯度下降的计算公式:|𝑤𝑛−𝑤(𝑛−1)|=|𝑙𝑟⋅∇𝑤𝑓(𝑤(𝑛−1))| 其中lr(学习率)是个恒定的数值,每个点的梯度值不一样,越靠近最小值点梯度值越小,并不是一个等步长的移动过程,而是移动距离衰减,因此无论增加多少次迭代,主要参数不会发散,最终参数值点不太可能跨过最小点。学习率取值是影响结果是否收敛,以及能否在有限次迭代次数中高效收敛的关键参数,学习率过大会导致结果发散,而学习原创 2022-03-14 23:53:24 · 4645 阅读 · 0 评论