机器学习
mashagua
这个作者很懒,什么都没留下…
展开
-
基本算法梳理(2)-random forest
接上篇:随机森林的思想1 为什么会产生随机森林解决决策树的过拟合问题。2 随机森林的产生方法给定一个有n个样本的训练集{X,Y},for b=1,…,B:1.从X中有放回的采样n个样本,组成集合{Xb,Yb};2.在{Xb,Yb}上随机抽取n个特征训练决策树(或者回归树)3.通过投票决定结果3随机森林的优缺点:优点:随机森林几乎不需要输入准备。它们可以处理二进制特征,分类特...原创 2019-04-04 21:49:36 · 178 阅读 · 0 评论 -
xgboost的算法整理
1 算法原理xgboost是boosting 中的一种,所用到的树模型是cart tree它的目标函数为第一部分是真实值和预测值的差,第二部分是正则化项,T表示叶子节点的个数,w表示叶子节点的分数,由于新生成的树要拟合上次预测的残差,当生成t颗树后,预测分数写成:y(t)=y(t-1)+f(x)因此将目标函数改写为然后在f_t=0处的泰勒二阶展开近似从而进行进一步求解2在寻找...原创 2019-04-10 21:29:33 · 267 阅读 · 0 评论 -
算法梳理_集成学习(1)
1 概念梳理集成学习(ensemble Learning):通过构建并结合多个学习器来完成学习任务个体学习器(base learners):也叫基学习器,通常由一个现有的学习算法从训练数据中产生。(这个现有的学习算法可以是朴素贝叶斯,决策树这种单一算法,也许是random forest这种ensemble算法)2 分类常见的有三类:bagging,boosting,stacking(ba...原创 2019-04-03 09:49:51 · 252 阅读 · 0 评论