![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 84
wafq
这个作者很懒,什么都没留下…
展开
-
机器学习笔记01 -- 决策树、随机森林、AdaBoost
一、决策树1 决策树的优化:剪枝1.1 预剪枝:每个节点在进行划分时进行估计,看该节点进行划分前后是否可以带来泛化能力上的提升,如果不能,则直接标记为叶子节点。1.2 后剪枝:生成完整的决策树后,再自下而上去评估每个非叶子节点的划分是否带来了泛化能力的提升,如果不能,则将该节点的子树替换为叶子节点。要用验证集数据来判断。2 属性划分纯度变化的计算方法2.1 信息增益 – ID3X:样本类别;A:一种特征x:一种类别;a:A特征划分后的一个分支熵:事件X发生概率p(x)的倒数取对数信息原创 2021-05-30 13:30:14 · 230 阅读 · 0 评论 -
机器学习笔记03 -- GBDT回归、二分类、多分类问题
一、GBDT回归1 偏差方差,过拟合欠拟合偏差bias:是用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。方差Variance:是不同的训练数据集训练出的模型输出值之间的差异。想要结果偏差小,就要让模型复杂,参数多,但这样模型的学习能力会过强,导致方差大,在测试集上表现差,表现为过拟合。想要结果方差小,就要让模型简单,参数少,但这样会导致模型学习能力弱,导致偏差大,即表现为欠拟合。对于Bagging,投票输出或取均值输出可以减小方差,所以基模型可以取偏差小的,复原创 2021-06-01 17:58:11 · 894 阅读 · 0 评论 -
机器学习笔记02 -- XGBoost、 LightGBM
1.XGBoost2. Light GBM基于Histogram的决策树算法离散化每个特征的数据为K个bins,统计每个bins中的data数目,再寻找最优的分割点。优点:1. 内存为1/8。2.计算代价变小(由feature个变为K个)尽管分割变粗糙,但由于决策树是弱模型,所以不太重要,反而可以减少过拟合。可以采用直方图加速,用父节点的直方图和兄弟节点的直方图相减,就是该叶子的直方图带深度限制的Leaf-wise算法决策树不是按level生长,这样相同的对待了每一层的叶子,但很多叶子其实分原创 2021-05-30 20:47:53 · 337 阅读 · 0 评论