机器学习理解及复习
BalanceX
这个作者很懒,什么都没留下…
展开
-
决策树理解和复习
本文主要是对决策树的复习,把决策树知识结构化,温故而知新~1、决策树在结点分裂时针对特征的处理1、ID3、C4.5:针对数值特征的处理:ID3不支持C4.5:将连续值离散化,具体方法是将这些值从小到大排序,记为 a1,a2,...,an{a^1, a^2, ..., a^n}a1,a2,...,an, 每次取 ai+ai+12\frac{a^i+a^{i+1}}{...原创 2019-09-23 13:30:58 · 832 阅读 · 0 评论 -
随机森林(Random forest)的理解和复习
本文主要是对随机森林的复习,把随机森林知识结构化,温故而知新~1、分类过程样本采样方法:Bagging1、Bagging过程(Bootstrapping集成)有放回的随机抽样2、Voting过程(每个基学习器进行投票)针对回归:每个基学习器预测结果进行平均针对分类:每个基学习器预测结果进行投票,得票数最多的类为预测类随机森林的随机性1、样本的随机性(Bagging): 在...原创 2019-09-23 19:24:29 · 1930 阅读 · 0 评论 -
逻辑回归(LR)理解及复习
本文主要是对LR的复习,把LR知识结构化,温故而知新~LR分类过程1、LR的假设函数LR假设函数P(y=1∣x)=11+e−wTxP(y=1|x) = \frac{1}{1+e^{-w^Tx}}P(y=1∣x)=1+e−wTx1sigmoid函数的理解关于LR为什么用sigmoid函数,总共有两个理解:1、从对数几率logit角度理解:在统计学中,概率和odds都是用于...原创 2019-09-24 16:32:53 · 986 阅读 · 0 评论 -
为什么树模型不适合高维稀疏特征
转载自:https://blog.csdn.net/papaaa/article/details/79910449思考角度比较好,做个记录这个问题我也是思考了好久,在平时的项目中也遇到了不少 case,确实高维稀疏特征的时候,使用 gbdt 很容易过拟合。但是还是不知道为啥,后来深入思考了一下模型的特点,发现了一些有趣的地方。假设有1w 个样本, y类别0和1,100维特征,其中10个样...转载 2019-09-27 10:19:09 · 3788 阅读 · 0 评论 -
adaboost的理解和复习
本文主要是对adaboost的复习,把adaboost知识结构化,温故而知新~1、adaboost引出思想Boosting思想串行,根据上一轮基学习器学习的结果,来优化下一轮学习的样本权重主要思想:上一轮基学习器预测错误的样本,在下一轮学习中增加权重,使得犯错的样本在下一次学习中获得更多的关注,不断提高整体模型的预测能力2、adaboost预测原理训练阶段1、第一...原创 2019-10-09 15:59:37 · 724 阅读 · 0 评论 -
Gradient Boosting框架的理解和复习
文本主要是对Gradient Boosting框架的复习,温故而知新,进一步理解Gradient Boosting框架~文章结构为:1、从adaboost损失函数理解Gradient Boosting的目的(扩展损失函数)2、从梯度下降角度理解前向加法模型(为什么拟合的是损失函数的负梯度)3、同林轩田技法中方法做结合4、总结不同boosting和GBDT1、从前向加法模型角度思...原创 2019-10-09 16:07:32 · 1238 阅读 · 0 评论 -
Xgboost的理解和复习
文本主要是对Xgboost的复习,温故而知新,进一步理解Xgboost~原理-损失函数:1、XGB的损失函数同GBDT有什么区别Xgboost正则化的方法有哪些前文中GBDT的损失函数进行了一阶泰勒展开,轻松地知道下一棵树需要去拟合损失函数的负梯度。而在Xgboost中,损失函数增加了正则项,增加正则项后下一棵树优化的目标是什么呢,接下来会针对这些问题进行理解分析。1、Xg...原创 2019-10-09 16:11:11 · 1407 阅读 · 0 评论 -
LightGBM的理解和复习
LightGBM1、直方图算法为了减少内存占用和split finding所需的时间连续的浮点数特征值 => 离散化K个整数(默认bins是256,1个字节能表示的数字长度)遍历数据时,根据离散化后的值作为横轴索引,计算每个值的统计量(一阶和二阶梯度之和+样本计数)遍历所有bin,分别以当前bin作为分割点,计算出增益,在遍历过程中取最大的增益,以此时的特征和bin...原创 2019-10-09 16:12:50 · 1084 阅读 · 0 评论 -
catboost对类别特征处理的简单总结
catboost对类别特征处理简单总结ctb针对类别特征的处理怎么样做,使类别特征有更为丰富的表达?1、Mean Encoding1、【针对高基数的类别特征】Mean Encoding:均值编码场景:如果某一个特征是定性的(categorical),而这个特征的可能值非常多(高基数),那么平均数编码(mean encoding)是一种高效的编码方式。在实际应用中,这类特征工程能...原创 2019-10-09 16:18:26 · 7425 阅读 · 1 评论