- 博客(5)
- 收藏
- 关注
原创 catboost对类别特征处理的简单总结
catboost对类别特征处理简单总结ctb针对类别特征的处理怎么样做,使类别特征有更为丰富的表达?1、Mean Encoding1、【针对高基数的类别特征】Mean Encoding:均值编码场景:如果某一个特征是定性的(categorical),而这个特征的可能值非常多(高基数),那么平均数编码(mean encoding)是一种高效的编码方式。在实际应用中,这类特征工程能...
2019-10-09 16:18:26 7555 1
原创 LightGBM的理解和复习
LightGBM1、直方图算法为了减少内存占用和split finding所需的时间连续的浮点数特征值 => 离散化K个整数(默认bins是256,1个字节能表示的数字长度)遍历数据时,根据离散化后的值作为横轴索引,计算每个值的统计量(一阶和二阶梯度之和+样本计数)遍历所有bin,分别以当前bin作为分割点,计算出增益,在遍历过程中取最大的增益,以此时的特征和bin...
2019-10-09 16:12:50 1106
原创 Xgboost的理解和复习
文本主要是对Xgboost的复习,温故而知新,进一步理解Xgboost~原理-损失函数:1、XGB的损失函数同GBDT有什么区别Xgboost正则化的方法有哪些前文中GBDT的损失函数进行了一阶泰勒展开,轻松地知道下一棵树需要去拟合损失函数的负梯度。而在Xgboost中,损失函数增加了正则项,增加正则项后下一棵树优化的目标是什么呢,接下来会针对这些问题进行理解分析。1、Xg...
2019-10-09 16:11:11 1428
原创 Gradient Boosting框架的理解和复习
文本主要是对Gradient Boosting框架的复习,温故而知新,进一步理解Gradient Boosting框架~文章结构为:1、从adaboost损失函数理解Gradient Boosting的目的(扩展损失函数)2、从梯度下降角度理解前向加法模型(为什么拟合的是损失函数的负梯度)3、同林轩田技法中方法做结合4、总结不同boosting和GBDT1、从前向加法模型角度思...
2019-10-09 16:07:32 1271
原创 adaboost的理解和复习
本文主要是对adaboost的复习,把adaboost知识结构化,温故而知新~1、adaboost引出思想Boosting思想串行,根据上一轮基学习器学习的结果,来优化下一轮学习的样本权重主要思想:上一轮基学习器预测错误的样本,在下一轮学习中增加权重,使得犯错的样本在下一次学习中获得更多的关注,不断提高整体模型的预测能力2、adaboost预测原理训练阶段1、第一...
2019-10-09 15:59:37 736
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人