gbdt如何处理分类问题

    本人理解:多分类变成多个二分类,比如说当前类别A,训练集的标签为属于A的为1,其他为0,该值为连续值(概率),基于这所有的样本生成一棵树;结果为对类别A的预测值f(x);然后B标签,C标签同理可得;然后通过softmax层处理下得到属于各个类别的概率值;这里每一轮迭代都会和类别数目...

2018-12-11 17:44:20

阅读数:16

评论数:0

gbdt学习率调参

问题:如果你的梯度集成模型过拟合了,此时应该是增加学习率还是减少学习率? 在梯度提升模型中,学习率本质上是误分类样本的权重;如果要减少过拟合,就要减少对错误分类的关注; 此处使用极限思维,学习率为0,那么就只有一棵树,错误分类的实例均不考虑; 输出验证集与训练集的结果:    改变学...

2018-12-11 14:35:29

阅读数:51

评论数:0

lr与svm如何选择-面试

我当时的回答:如果要求不仅仅是类别,输出概率水平大小,要选用lr;因为svm只输出类别; 网上总结异同: svm是结构风险最小化的函数,因为自带L2正则函数;svm中取决于支持向量,所以与数据分布无关,而且计算依赖于距离公式,所以标准化很重要;   lr的决策 平面取决于所有的数据,所以依...

2018-12-11 10:38:35

阅读数:22

评论数:0

lstm解决梯度消失

本人认为: lstm只能缓解梯度消失,并不能完全解决;因为最新的状态单元可以是过去的一个线性组合,过去的信息传递到现在主要是由每个时间步的遗忘门参数连乘决定的; 而rnn是过去时间序列的一个连乘;由参数w与tanh激活函数的导数值连乘而得到的;      ...

2018-12-07 17:07:21

阅读数:24

评论数:0

tensorflow 实现 logistic regression

import numpy as np import matplotlib.pyplot as plt import tensorflow as tf #prepare data dataX=np.random.randn(1000,15) dataY=np.random.randint(0,2,...

2018-12-06 16:51:25

阅读数:13

评论数:0

最大熵模型的理解

个人理解:最大熵模型的本质就是对未知的东西进行均分;                      

2018-12-06 14:07:13

阅读数:31

评论数:0

L1相对于L2较稀疏的原因

 

2018-12-05 14:57:02

阅读数:23

评论数:0

自己对ols推导

最终的结果跟假设息息相关,比如说x是列向量还是行向量,最终的X是什么维度,Y是什么维度都会影响最终的表现形式;但万变不离其宗,掌握本质其他一切都是外在表现形式不同而已;  为了以后计算简单方便,我自己设定以后 统一用列向量;...

2018-12-04 11:20:19

阅读数:23

评论数:0

svm中支持向量的理解

支持向量指的就是超平面距离最近的点;每个点都是一样向量; 以前错误的理解向量一定是要两个点连接起来;此处就认为是将最近的两个点连起来就是支持向量; 本质上来说,空间中的任何一点都是一个向量;只不过是以原来为起点;...

2018-11-30 14:39:18

阅读数:16

评论数:0

gbdt子采样参数的理解

随机森林的子采样是有放回的抽样 gbdt的子采样是无放回的抽样 本人的错误理解: 比如说原来的数据集是100个样本;gbdt的第一棵树是80个样本,第二棵树是剩下的20%,16个样本;依此类推; 错误理解的根本是将抽取0.8样本集的作为一个整体,是否放回;所以才会觉得gbdt难以理解,每棵...

2018-11-30 14:19:48

阅读数:14

评论数:0

PCA与SVD的关系

              SVD并不要求是方阵,而PCA必须要求是方阵,所以会PCA必须计算协方差矩阵,计算量大,且会出现数值溢出;

2018-11-30 09:06:37

阅读数:20

评论数:0

最大似然函数对数求解的便利

2018-11-29 19:34:14

阅读数:19

评论数:0

凸优化的理解

 

2018-11-29 15:15:55

阅读数:19

评论数:0

对拉格朗日乘子法与KKT的理解

在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。   我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最...

2018-11-29 14:27:18

阅读数:21

评论数:0

如何将浮点型准确地转换成字符串

问题需求:统计最后一位小数出现的频率,数据比如:9.69,9.53,9.79,9.99,10.30;提取最后一个小数点 直接使用str函数: 显然不符合需要;最后一位小数总是会出现意想不到的问题 解决策略,将需要的数变成百位整数   因为这个问题困扰了很久;  结果就完美的显现出来...

2018-11-23 17:30:51

阅读数:33

评论数:0

对于偏度的理解

偏度公式如下: 现在想解决如何从图像上解决为正为负的问题,如图所示:? 个人理解:偏度中的偏是针对变量相对于中心点(期望值)距离的一种描述;如果厚尾的话,就说明有很多点距离中心点比较远,如上图中的负偏度如果不看厚尾,仅看靠近中心点的两侧,很显然右侧相对左侧,更多的点集中在中心点附近,换...

2018-11-23 11:06:52

阅读数:50

评论数:0

到现在才理解高斯分布的均值与方差为什么是0和1

问题的来源,如图所示:为什么标准正态分布的期望值0,方差为1呢,如果是针对x变量,期望值为0可以理解,那么方差为1怎么理解呢,显然不可能为1,如果针对y变量,显然所有值都大于0,怎么会期望值会大于0呢: 先看数学期望的定义: 期望值本身是对所有值进行加权的过程,是针对一个变量存在的;每个值...

2018-11-23 10:52:55

阅读数:184

评论数:0

归一化的本质原因

数据归一化(或者标准化,注意归一化和标准化不同)的原因   要强调:能不归一化最好不归一化,之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。 有些模型在各维度进行了不均匀的伸缩后,最优解与原来不等价(如SVM)需要归一化。 有些模型伸缩有与原来等价,如:LR则不用归一化,...

2018-11-21 10:43:03

阅读数:41

评论数:0

树模型为什么是不能进行梯度下降

对于树形结构为什么不需要归一化?机器学习 ML基础 易 答:数值缩放,不影响分裂点位置。因为第一步都是按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。对于线性模型,比如说LR,我有两个特征,一个是(0,1)的,一个是(0,10000)的,这样运用梯度下降时候,损失等高线...

2018-11-21 10:39:53

阅读数:40

评论数:0

形象的表述sigmoid的神经网络万能近似定理

我们了解神经网络以及它们从数据科学到计算机视觉的多个领域中的无数成就。众所周知,它们在解决有关泛化性方面的复杂任务中表现良好。从数学上讲,他们非常擅长近似任何的复杂函数。让我们形象化地理解这种近似概念,而不是前向和后向传播方法中的最小化预测误差。假设你了解前向和后向传播的一点基础,其旨在借助梯度和...

2018-11-17 11:04:27

阅读数:134

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭