【机器学习】决策树及Bagging, Random Forest和Boosting模型融合

前言

一晃一个月没写博客了。懒癌又犯了TT。
之前提到过,写博客是为了记录实习中学到的点滴。博主在某家做travelling IT solution的公司实习。公司核心业务还是做Global Distribution System的。我们部门做的是收益系统。我们小组的工作就是模拟运行收益系统。寻找能够提高收益的最佳参数设定。于是产生一些数据。实习的任务就是寻找最优化的参数来提高收益。我把它当做一个回归问题来做。把不同的参数设置当做其中features,训练出模型,得到收益变化。通过这些变化反过来寻找收益最大时的参数,把这个参数当做最佳参数。说起来有点绕了,简单讲就是一个回归问题。然后尝试了不同的算法,效果都不是特别好。其中Random Forest Regression能得到最好的结果。既然实际中运用到基于决策树的算法了,那就反过来记录一下咯。反正现在代码正在跑着,一两个小时内没事做,就来码码字咯。

决策树(Decision Tree)

随便一搜就能搜出很多大牛们的博客介绍决策树的。决策树可以计算回归和分类的问题。直观简单容易理解。我偷一个斯坦福大学Statistical Learning PPT上的一个例子吧(图不好看,但是博主喜欢篮球)。这个例子讲的是预测篮球运动运收入的问题。那么怎么预测运动员们的收入呢?在训练数据集里我们有运动员的打球时间:years,运动员过去几年的进球数(hits, 不知道hits是不是进球数的意思),走步次数(walks,不知道啥意思,我就自以为是猜是走步)等。(不要骂我,英文水平渣) 我们可以把训练数据进行分割。如图所示,年龄小于4.5是第一个分割节点。把所有球员工作年龄小于4.5年的放到图的左边分支,大于等于4.5年的放到右边。一个点产生两个分支(我们也可以设置多个分支)。然后对于打球时间小于4.5年的和大于4.5年的接着问第二个问题进行分割。比如对于大于4.5年的运动员接着根据他们的进球数进行分割。以此递归类推。最后数据越分越少,最后我们就建成了一棵树。树的末端叫做叶子。最后每一个运动员都会分到一个的叶子节点上,一个叶子节点可以有一个或者多个运动员。这个例子是一个回归问题,我们可以

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值