2019年10月_BalanceX

11月 10月 09月

原创 catboost对类别特征处理的简单总结

catboost对类别特征处理简单总结ctb针对类别特征的处理怎么样做，使类别特征有更为丰富的表达？1、Mean Encoding1、【针对高基数的类别特征】Mean Encoding:均值编码场景：如果某一个特征是定性的（categorical），而这个特征的可能值非常多（高基数），那么平均数编码（mean encoding）是一种高效的编码方式。在实际应用中，这类特征工程能...

2019-10-09 16:18:26 7555 1

原创 LightGBM的理解和复习

LightGBM1、直方图算法为了减少内存占用和split finding所需的时间连续的浮点数特征值 => 离散化K个整数（默认bins是256，1个字节能表示的数字长度）遍历数据时，根据离散化后的值作为横轴索引，计算每个值的统计量（一阶和二阶梯度之和+样本计数)遍历所有bin，分别以当前bin作为分割点，计算出增益，在遍历过程中取最大的增益，以此时的特征和bin...

2019-10-09 16:12:50 1106

原创 Xgboost的理解和复习

文本主要是对Xgboost的复习，温故而知新，进一步理解Xgboost~原理-损失函数：1、XGB的损失函数同GBDT有什么区别Xgboost正则化的方法有哪些前文中GBDT的损失函数进行了一阶泰勒展开，轻松地知道下一棵树需要去拟合损失函数的负梯度。而在Xgboost中，损失函数增加了正则项，增加正则项后下一棵树优化的目标是什么呢，接下来会针对这些问题进行理解分析。1、Xg...

2019-10-09 16:11:11 1428

原创 Gradient Boosting框架的理解和复习

文本主要是对Gradient Boosting框架的复习，温故而知新，进一步理解Gradient Boosting框架~文章结构为：1、从adaboost损失函数理解Gradient Boosting的目的（扩展损失函数）2、从梯度下降角度理解前向加法模型（为什么拟合的是损失函数的负梯度）3、同林轩田技法中方法做结合4、总结不同boosting和GBDT1、从前向加法模型角度思...

2019-10-09 16:07:32 1271

原创 adaboost的理解和复习

本文主要是对adaboost的复习，把adaboost知识结构化，温故而知新~1、adaboost引出思想Boosting思想串行，根据上一轮基学习器学习的结果，来优化下一轮学习的样本权重主要思想：上一轮基学习器预测错误的样本，在下一轮学习中增加权重，使得犯错的样本在下一次学习中获得更多的关注，不断提高整体模型的预测能力2、adaboost预测原理训练阶段1、第一...

2019-10-09 15:59:37 736

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人