爱喝桃子汽水-CSDN博客

更多内容，关注“百面机器学习”可以看到啦神经网络中怎么降维？标准化和归一化有什么区别？LSTM 为啥比 RNN 在梯度消失上要好？为啥 L1 正则先验分布是 Laplace 分布，L2 正则先验分布是 Gaussian 分布？为什么归一化能加快梯度下降法求优化速度？简单说下 Adaboost？SVM 和 LR 区别和联系？机器学习中的距离和相似度度量方式有哪些？AUC 为啥对正负样本比例不敏感？Xgboost 哪里可做到并行？boosting 不是串行吗？你还知道哪些降维方法？为什么

2020-09-06 22:13:45 311

原创 GBDT的预测结果有负数，为啥？

问题引入大家在项目中遇到的情况基本都是预测的值是正值，如预测问题、股票、现金流等，很少会有负数的场景，那我们在使用GBDT进行模型预测的时候，得到的结果可能是负值吗？为啥有负值，应该怎么处理这种情况？问题解答其实，是可能会出现负值的，出现的情况原因可能有如下：如果在loss函数中没有加对负数输出的惩罚项（regularization），就有可能得到负数输出。首先要看得到负数的的输入值是否在training data中出现过，如果没出现过，并且这种数据点很少，可以认为这些是outlier。也可以把

2020-05-19 23:17:52 2469

原创使用softmax中需要注意哪些问题？

关注微信公众号“百面机器学习”获得更多问题引入softmax是一个很有用的东西，在我们的分类问题中经常被用到，大家在构建神经网络以及在学习word2vec的时候都会用到softmax函数，那么实际在使用softmax的过程中有哪些需要注意的呢？看来看好像根据公式直接算就可以了，但是中间还有写细节问题，下面我们一起来看一下。问题解答在我们的softmax计算过程中会遇到上溢下溢的问题，这点我们可以从softmax的函数中看到。f(x)=exp⁡(x)∑i=1kexp⁡(x)f(x) = \frac

2020-05-18 23:07:17 752

原创比较下MSE和交叉熵

问题引入在之前的文章中也说过为啥LR用sigmod函数，这里着重说一下为啥分类问题用到交叉熵比较多呢，为啥不用MSE这些呢？交叉熵有啥好处？本文主要比较小MSE以及交叉熵，关于LR为啥用sigmod函数，分类问题中为啥用交叉熵这些问题，在这里可以找到。问题解答首先来看两者的表达式：MSE：L=1N∑i=1N∣∣yi−y^i∣∣22L = \frac{1}{N} \sum_{i=1}^{N} ||y_i - \hat{y}_i ||_2^2L=N1∑i=1N∣∣yi−y^i∣∣22交叉

2020-05-18 19:29:05 912

原创详细说明下决策数如何计算特征重要性的？

问题引入笔者在所有的面试中都会被问答到项目中的具体特征的情况，包括特征是如何得到的，为啥这个特征有效，做了哪些特征筛选，特征重要性是如何看的，和线性回归、逻辑回归这种广义线性模型不一样，简单的决策树的特征重要性又没有类似线性回归的系数可以用来说明特征重要性，那么，树模型的特征重要性是怎么计算的呢？问题解答对于简单的的决策数，sklearn中是使用基尼指数来计算的，也就是基尼不纯度，决策数首先要构造好后才可以计算特征重要性，当然，我们在构建数的过程中已近计算好了特征重要性的一些值，如基尼指数，最后我们得

2020-05-18 19:28:32 543