Machine Learning（Lesson4 决策树与集成学习）

季马宝宝

已于 2022-05-20 11:34:39 修改

阅读量208

点赞数 1

分类专栏：机器学习文章标签：决策树机器学习 sklearn

于 2021-10-15 22:14:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21043585/article/details/120775031

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

引言

之前写的都太冗余了，其实代码什么的后面都差不多，把那章一个完整的机器学习项目认真学会了，就可以上Kaggle上面修炼了。以后我会试着用更简洁的语言，把问题大致说清楚，更大程度上忽略细节。

决策树

什么是决策树

决策树很简单，下图就是一颗决策树，能区分香蕉、西瓜、橙子三种水果。

但是对于我们所说的决策树，很关键一点就是，每个叶子节点里面包含的不是一个确定的类，而是成为某一类的概率，我们送于训练的样本通常来说并不存在某种方式把每类都分清楚（都分清楚了反而是过拟合）。

如何构建决策树

决策树判断是非常简单的，问题在于如何训练

基尼指数

$G_i={1-\sum_{k=1}^n}P_{i,k}^2$
基尼指数代表纯度，如果只含一个类，显然等于0，纯度非常高。越高纯度说明这个节点预测能力越强，可想而知我们希望节点的基尼指数尽可能高。

信息熵

$H_i=-\sum_{k=1,P_{i,k}!=0}^nP_{i,k}log(P_{i,k})$
信息熵就是含的信息量，如果一个节点只有一类，那log1=0，即信息熵为0。
众所周知，熵的意思是无序程度，熵越大不确定度越高，我们总是希望不确定性低一点，所以熵要尽可能小。
我们将依据这两个指标（二选一）建立树，聪明的你一定想到办法了

CART算法（sklearn使用的算法）

增长树算法，每次用一个一个特征和一个阈值 $t,t_k)$ 去进行预测，使得结点基尼指数最大。但是由于分开的两个节点包含样本数量不同，所以要把样本数作为权重加和计算。

ID3算法

最开始就一个节点，信息熵很大。我们使用某个特征对节点进行拆分，拆分完后几个节点的加权信息熵要尽可能小。信息增益就是原本的信息熵减掉新的信息熵，信息增益要尽可能大。

C4.5算法

$H_f$ 代表代表父节点的信息熵
信息增益率 $IGR_i=\frac{H_f-H_i}{H_i}$ ，信息增益率作为划分集合的标准

集成学习

什么是集成学习

用多个模型进行预测，并通过组合获得更好的预测效果（基本是最强的机器学习方式了）。

Adaboost

用第一个模型进行预测，由于模型很简单会产生很多错误预测，增加这部分的比重，去掉分类正确的混入新数据使用第二个模型进行训练，以此类推。要控制模型基分类器的数量，防止过拟合。

GradientBoost

梯度提升，用第二个模型预测第一个模型的残差，以此类推。

Stacking

一种思想，上面两种是使用序列化的思想进行集成学习的。而Stacking则是依靠训练模型来组合已有的模型。sklearn不支持stacking，要自己进行组合。

随即森林

把样本进行拆分，每次使用其中一些特征，训练出很多课树，然后调节每棵树的权重并组合，获得最终结果。
最简单就是投票机制，五颗决策树中四颗说这是西瓜，一个说是黄瓜，那他就是西瓜。

各种牛逼的boostedtree

xgboost、lightGBM等

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning（Lesson4 决策树与集成学习）

引言之前写的都太冗余了，其实代码什么的后面都差不多，把那章一个完整的机器学习项目认真学会了，就可以上Kaggle上面修炼了。以后我会试着用更简洁的语言，把问题大致说清楚，更大程度上忽略细节。决策树什么是决策树决策树很简单，下图就是一颗决策树，能区分香蕉、西瓜、橙子三种水果。#mermaid-svg-Yv8ywkEq3n9I6dEq .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-fam
复制链接

扫一扫

专栏目录

博客等级

码龄10年

62
原创

197
点赞

1227
收藏

4573
粉丝

关注

私信

热门文章

分类专栏

最新评论

从零开始的三维激光雷达SLAM教程第二讲（搭建Gazebo仿真环境，并添加动态障碍物）
井函: 哦，可能kill一下收发节点就可以了 killall gzserver killall gzclient
从零开始的三维激光雷达SLAM教程第二讲（搭建Gazebo仿真环境，并添加动态障碍物）
井函: 请问解决了吗？我也有这个问题诶
SLAM学习笔记——从零搭建完整的gazebo多机仿真SLAM（一）
weixin_52847025: 你好，我也遇到了同样的问题，请问你现在解决了吗？能够实现多个机器人建图吗？
从零开始的三维激光雷达SLAM教程第二讲（搭建Gazebo仿真环境，并添加动态障碍物）
不羁570: 大佬,我运行完roslaunch aloam_velodyne aloam_velodyne_VLP_16.launch这一指令后,第一个gazebo指令的终端爆出[gazebo-2] process has died [pid 4516, exit code 139, cmd /opt/ros/melodic/lib/gazebo_ros/gzserver -e ode /home/lee/anli02_ws/src/3d_slam_simulation/world/gallery.world __name:=gazebo __log:=/home/lee/.ros/log/1e450b12-0df9-11ef-bc55-04ea567a9cc5/gazebo-2.log]. log file: /home/lee/.ros/log/1e450b12-0df9-11ef-bc55-04ea567a9cc5/gazebo-2*.log...请问该怎么解决呢?
SLAM学习笔记——从零搭建完整的gazebo多机仿真SLAM（一）
StevenLiu001: create world.launch文件有一个世界名称改成你自己保存的.world文件的名称，作者写的是maze.world

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。