机器学习总结笔记
文章平均质量分 92
qq_26430933
这个作者很懒,什么都没留下…
展开
-
二、树模型(3)
1. GBDT 特征筛选方法https://blog.csdn.net/yangxudong/article/details/53899260原创 2022-05-22 23:05:22 · 1256 阅读 · 0 评论 -
梯度有关问题
1. 偏导数&方向导数导数是函数随自变量的变化率, 对于一元函数:只有一个自变量x,那么函数y=f(x)的导数是,在某一点处沿x轴正方向的变化率;多元函数:多个自变量,是多维向量,那么函数随自变量的变化怎么刻画呢?一个方法,就是衡量函数在给定方向上的变化率,这就是方向导数。方向导数的特例,就是函数随各个自变量(标量)的变化率,即函数的偏导数,也就是函数沿各个坐标轴正方向的方向导数;对于z=x2+y2z = x^2+y^2z=x2+y2形成的曲面,左图:红线表示fx(x,y)f_x(x,y)f原创 2022-05-22 22:46:00 · 267 阅读 · 0 评论 -
二、树模型(2)
1. GBDT 梯度提升决策树Gradient boosting和boosting的区别:a) 提升树利用加法模型和前向分步算法实现学习的优化过程。当损失函数时平方损失和指数损失函数时,每一步的优化很简单,如平方损失函数学习残差回归树。b) 但对于一般的损失函数,往往每一步优化没那么容易,如绝对值损失函数。针对这一问题,Freidman提出了梯度提升算法:利用最速下降的近似方法,即利用损失函数的负梯度在当前模型的值,作为回归问题中提升树算法的残差的近似值,拟合一个回归树。(注:与其说负梯度作为残差的原创 2022-05-08 20:06:30 · 452 阅读 · 0 评论 -
二、树模型
1. 决策树1.1 信息增益**熵:**衡量不确定程度。熵越大,随机变量不确定性越大。熵只依赖于随机变量X的分布,与X的取值无关。H(p)=−∑inpilog(pi)H(p) = -\sum_i^n p_i log(p_i)H(p)=−i∑npilog(pi)当随机变量只有两个值0,1的时候,P(X=1)=p;P(X=0)=1−p;0≤p≤1P(X=1)=p; P(X=0)=1-p; 0 \leq p \leq 1P(X=1)=p;P(X=0)=1−p;0≤p≤1H(0)=−[plog(原创 2022-05-08 15:35:08 · 559 阅读 · 0 评论 -
一、模型评估和选择
1.模型评估和选择1.1 损失函数**对数似然损失(log-likehood loss):**也称逻辑斯谛回归似然损失(logistic loss),或交叉熵损失(cross-entropy)。最小化对数似然损失等价于最大化分类器准确度,因此常用于logistic regression和神经网络。对数似然损失函数公式(二分类问题简化):L(Y,P(Y∣X))=−1N∑i=1N[yilog(pi)+(1−yi)log∗(1−pi)]L(Y,P(Y|X)) = - \frac {1}{N} \sum_原创 2022-05-04 22:17:18 · 135 阅读 · 0 评论