![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
qq_38056367
我是学生
展开
-
支持向量机
简单介绍SVM?从分类平面,到求两类间的最大间隔,到转化为求间隔分之一等优化问题:loss=min(1/2·||W||·||W||) subject to:y(wx+b)>=1,其中||·||为2范数然后就是优化问题的解决办法,首先是用拉格拉日乘子把约束优化转化为无约束优化,对各个变量求导令其为零,得到的式子带入拉格朗日式子从而转化为对偶问题最后再利用SMO(序列最小优化)来解决这个对偶问题什么叫最优超平面?两类样本分别分割在该超平面的两侧超平面两侧的点离超平面尽可能的远什么是原创 2020-09-25 15:27:24 · 236 阅读 · 0 评论 -
线性回归
损失函数是啥mse,最小均方误差:最小二乘/梯度下降手推最小二乘损失函数:求导可得:使右侧为0可得:如果X点乘X的转置可逆则有唯一解,否则无法如此求解梯度下降损失函数:求导可得梯度:介绍一下岭回归加上l2的线性回归:在用最小二乘推导的过程和上面一样,最后在结果上进行了平滑,保证有解:什么时候使用岭回归?样本数少,或者样本重复程度高什么时候用Lasso回归?特征过多,稀疏线性关系,目的为了在一堆特征里面找出主要的特征...原创 2020-09-25 15:26:50 · 137 阅读 · 0 评论 -
随机森林
解释下随机森林?随机森林=bagging+决策树随机:特征选择随机+数据采样随机特征随机是在决策树每个结点上选择的时候随机,并不是在每棵树创建的时候随机每个结点上对特征选择都是从全量特征中进行采样对,不会剔除已利用的数据采样,是有放回的采样1个样本未被选到的概率为p = (1 - 1/N)^N = 1/e,即为OOB森林:多决策树组合可分类可回归,回归是对输出值进行简单平均,分类是对输出值进行简单投票随机森林用的是什么树?CART树随机森林的生成过程?生成单棵原创 2020-09-25 15:26:27 · 4763 阅读 · 0 评论 -
lr
logistic分布函数和密度函数,手绘大概的图像分布函数:密度函数:其中,μ表示位置参数,γ为形状参数。logistic分布比正太分布有更长的尾部且波峰更尖锐LR推导,基础5连问基础公式f(x) = wx + by = sigmoid(f(x))可以看作是一次线性拟合+一次sigmoid的非线性变化伯努利过程对于lr来说事情只有发生和不发生两种可能,对于已知样本来说,满足伯努利的概率假设:p(y=1/x,θ) = h(θ,x)p(y=0/x,θ) = 1-h(θ,x原创 2020-09-25 15:17:27 · 218 阅读 · 0 评论 -
决策树
常见决策树模型ID3C4.5CART结构多叉树多叉树二叉树特征选择信息增益信息增益率Gini系数/均方差连续值处理不支持支持支持缺失值处理不支持支持支持枝剪不支持支持支持简述决策树构建过程构建根节点,将所有训练数据都放在根节点选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类如果子集非空,或子集容量未小于最少数量,递归1,2步骤,直到所有训练数据子集都被正确分类或没有合适原创 2020-09-25 15:17:02 · 153 阅读 · 0 评论 -
kmeans
请问从EM角度理解kmeans?k-means是两个步骤交替进行,可以分别看成E步和M步M步中将每类的中心更新为分给该类各点的均值,可以认为是在「各类分布均为单位方差的高斯分布」的假设下,最大化似然值;E步中将每个点分给中心距它最近的类(硬分配),可以看成是EM算法中E步(软分配)的近似为什么kmeans一定会收敛?M步中的最大化似然值,更新参数依赖的是MSE,MSE至少存在局部最优解,必然收敛kmeans初始点除了随机选取之外的方法?先层次聚类,再在不同层次上选取初始点进行kmeans聚原创 2020-09-25 15:15:50 · 94 阅读 · 0 评论 -
Xgboost
xgboost对比gbdt/boosting Tree有了哪些方向上的优化?显示的把树模型复杂度作为正则项加到优化目标中优化目标计算中用到二阶泰勒展开代替一阶,更加准确实现了分裂点寻找近似算法暴力枚举近似算法(分桶)更加高效和快速数据事先排序并且以block形式存储,有利于并行计算基于分布式通信框架rabit,可以运行在MPI和yarn上实现做了面向体系结构的优化,针对cache和内存做了性能优化xgboost和gbdt的区别?模型优化上:基模型的优化:gbd原创 2020-09-25 15:15:22 · 107 阅读 · 0 评论 -
LightGBM
XGboost缺点每轮迭代时,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间预排序方法需要保存特征值,及特征排序后的索引结果,占用空间level-wise,在训练的时候哪怕新增的分裂点对loss增益没有提升也会先达到预定的层数LightGBM对Xgboost的优化将连续的浮点特征离散成k个离散值,具体过程是首先确定对于每一个特征需要多少的桶bin,然后均分,将属于该桶的样本数据更新为bin的值,最后用直方图原创 2020-09-25 15:14:46 · 103 阅读 · 0 评论 -
GBDT
介绍一下Boosting的思想?初始化训练一个弱学习器,初始化下的各条样本的权重一致根据上一个弱学习器的结果,调整权重,使得错分的样本的权重变得更高基于调整后的样本及样本权重训练下一个弱学习器预测时直接串联综合各学习器的加权结果最小二乘回归树的切分过程是怎么样的?回归树在每个切分后的结点上都会有一个预测值,这个预测值就是结点上所有值的均值分枝时遍历所有的属性进行二叉划分,挑选使平方误差最小的划分属性作为本节点的划分属性属性上有多个值,则需要遍历所有可能的属性值,挑选使平方误差最小的划分原创 2020-09-25 15:14:12 · 225 阅读 · 0 评论 -
贝叶斯
解释一下朴素贝叶斯中考虑到的条件独立假设讲一讲你眼中的贝叶斯公式和朴素贝叶斯分类差别贝叶斯公式是完整的数学公式P(A/B) = P(A)P(B/A)/P(B)朴素贝叶斯 = 贝叶斯公式 + 条件独立假设,在实际使用过程中,朴素贝叶斯完全只需要关注P(A,B)=P(A)P(B/A)即可朴素贝叶斯中出现的常见模型有哪些多项式:多项式模型适用于离散特征情况,在文本领域应用广泛, 其基本思想是:我们将重复的词语视为其出现多次因为统计次数,所以会出现0次可能,所以实际中进行了平滑操作先验平滑:原创 2020-08-20 11:57:01 · 117 阅读 · 0 评论 -
GBDT算法梳理
Gradient Boosting Decision Tree梯度决策提升树参考:https://shimo.im/docs/U5roNEO8KOgPtWY7原创 2019-04-11 15:22:33 · 111 阅读 · 0 评论 -
Task3 XGB算法梳理
MySQL任务4打卡 参考1:https://blog.csdn.net/buxihuannicheng/article/details/89055953参考2:https://shimo.im/docs/PMYvg9rsj2c4i2qU原创 2019-04-11 23:06:57 · 159 阅读 · 0 评论 -
强大的矩阵奇异值分解(SVD)及其应用
机器学习中的数学—强大的矩阵奇异值分解(SVD)及其应用版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy一、奇异值与特征值基础知识: 特征值分解和奇异值分解在机器学习领域都是属...转载 2018-06-05 16:29:33 · 214 阅读 · 0 评论