![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ML
Sigyc
这个作者很懒,什么都没留下…
展开
-
GBDT、Xgb、Lgb对比以及常见面试题
GBDT、Xgb、Lgb对比以及常见面试题GBDT特点正则化Xgb特点正则化Lgb常见面试题RF与GBDT之间的区别Xgb与GBDT的区别Lgb与Xgb的区别之前写了一点RF的东西,作为决策树+bagging的模型自然经常会被拉出来和决策树+boosting的模型进行对比;而GBDT、Xgb、Lgb一系列的产物正式这种思路加上一些改进的工程产物,所以就一起放出来对比说明了。GBDT特点GBDT 是梯度提升树(Gradient Boosting Decison Tree)的简称,GBDT 通过多轮迭代原创 2020-07-16 22:13:33 · 4422 阅读 · 0 评论 -
RF详解以及常见面试题
学习RF的心得体会以及搜集的一些面试题RF数据集随机节点特征随机RF相关面试题随机森林与SVM的比较RF抗过拟合强的原因RF和GBDT的区别RF之前说过了决策树,试想一下如果有很多千姿百态的决策树组成了一个森林,那么以每个树的预测结果投票得到最后的模型输出的话,是不是能得到一个更加鲁棒,抗过拟合能力比较好的模型了。回顾一下决策树生成的过程,重复对一个数据集生成决策树的话,树形是确定的,也就是说每次生成的树是一样的,这样的话就达不到生成千姿百态的决策树再组成森林的目的了;同样的决策树组成森林结果是不变的原创 2020-07-14 21:13:31 · 1705 阅读 · 0 评论 -
数据降维以及相关面试题
数据降维以及相关面试题降维PCA方差最大化重构损失最小求解过程投影后数据的一些性质细节LDA原理推导核化处理降维所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。那么为什么我们需要对数据降维?数据维度太高,样本量稀疏,给机器学习算法带来巨大的时间性能花费。有些特征之间存在相关关系,增加了分析难度,所以用更少数量的不相关的特征代替。接下来介绍一下常用降维方法。PCA如果我们要把原数据投影到一个低维空间,怎么衡量我们投影后的数据好坏呢?我们要认识到数据的方差代表着原创 2020-06-14 20:50:50 · 936 阅读 · 0 评论 -
机器学习可解释性
机器学习可解释性模型无关方法PDPALESHAPLEY值基于样本的方法关于机器学习可解释性方面的研究,国内有位大佬做了一份很好的总结。Interpretable Machine Learning.同时国内也有人翻译了中文版 可解释的机器学习_中文版,不过大家条件允许的话还是先看原文把。想要了解可解释性的详细概念以及具体一些方法的推导和说明的话可以直接看书,本文仅记录使用这些方法的一些情况。模型无关方法LR和决策树之类的模型是很好解释的,看LR对应特征的参数以及决策树的划分属性都容易被人们理解;原创 2020-06-03 22:23:12 · 1011 阅读 · 0 评论 -
决策树详解以及常见面试题
学习决策树的心得体会以及搜集的一些面试题决策树训练过程最优划分属性连续和缺失值剪枝操作预剪枝后剪枝多变量决策树CART树决策树回归过程CART剪枝相关面试题决策树决策树是最符合人类思考模式,最容易被理解和解释的模型之一,所以在一些需要可解释性的场景下经常使用,其训练过程相比其他机器学习算法也更加通俗易懂训练过程初始情况下生成一个根节点,所有的数据都在这一个节点之内。寻找一个最能区分开不同类样本的最优划分属性,按照样本在该属性上取值的不同,分配到不同的下一级的子节点上。如果某个节点上没有了样本或原创 2020-06-02 21:35:45 · 1186 阅读 · 0 评论 -
SVM详解以及常见面试题
学习SVM的心得体会以及搜集的一些面试题SVM硬间隔SVM推导过程软间隔SVM推导过程支持向量回归SVR推导过程损失函数训练过程核函数SVM相关面试题SVMSVM的思想是在特征空间中找到一个超平面划分不同类,并且间隔最大的超平面意味着分类置信度比较大。硬间隔SVM如样本是线性可分的,则使用硬间隔的SVM,每个样本都是分类正确的推导过程空间超平面的方程为Wx+b = 0,W为平面法向量。点到平面的距离为最大化间隔即为具体取值无关,而1/W最大等价于W最大,所以问题等价于定义拉格朗日函数原创 2020-06-01 22:09:39 · 1151 阅读 · 0 评论 -
LR详解以及常见面试题
LR学习中的一点心得体会以及搜集的一些面试题LRLR相关面试题LRLR相关面试题原创 2020-06-01 19:30:17 · 1967 阅读 · 0 评论