对决策树,随机森林的初步认识

原创 2016年10月10日 11:27:01
 决策树是常用的分类方法,其方法也非常的直观。每一次从父亲到孩子是对某个特征的分裂,对于树中的叶子,要么是已经为纯净的了(所有样本都属于同一类),或者没有特征可以分裂。对于后一种情况的出现,可以考虑将划分为该点样本属于最多的类。对于一个分类问题可以构造出很多很多的决策树,而对于一个要通过某个确定的决策树进行分类的实例,就是从根节点开始,依据分裂出的条件一直走到某个叶子节点而判定其分类。所以判定一棵决策树的标准是看其深度越低越好。为了达到这个目的,通常对分裂时选择哪个特征进行分裂来做文章,希望每次的分裂后出来的点纯度越高越好(一个直观的例子,若根据某个特征分裂出的每个点各自都属于同一个类别,该节点分裂后其子节点就都不用继续分裂了)。比如现在一款游戏的运行条件有各种各样的硬件软件需求,如果系统不是win10就无法运行,而其他的硬件条件需要相互的组合才能判断是否可以运行,那么显然根节点往下就对系统这个特征进行分裂是最优的,而不是做了一堆硬件的分类后再对系统这个特征进行分裂。为了得到理想的分裂方法,衍生出了各种概念和算法,比如信息熵,信息增益,ID3,C4.5等。同时,决策树容易出现过拟合(overfitting)的问题,可以通过剪枝的方式来缓和。


 设计出一棵牛逼的决策树,样本进行很好的分类是比较困难的。这时就可以使用随机森林的了,其本质就是弄一堆并不是那么厉害的决策树,而最终的分类结果由投票来决定。那么如何构造这些决策树?假设全量的训练集为M个样本,N个特征,对于每颗决策树Ti,随机选取M个样本中的Mi个样本,再随机选择N个特征中的Ni个特征,作为决策树的训练样本,再进行简单的训练就好。注意这里的随机选取是用有放回的选取,即有可能存在决策树选取的训练样本及其特征是完全相同的,但概率非常的小。奇妙的是如此得到的分类结果往往是较为理想的,而且不容易出现过拟合情况。


 以上只是自己感性的认识,而要深入理解是有大量的数学和证明作为基础的。
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

决策树及随机森林在face alignment at 3000fps中的训练和测试

目录 目录 准备训练样本 Split node分裂节点的确定和划分 由决策树得到LBF特征1. 准备训练样本通过对参数的读取,若一个随机森林有10个树: 输入经过augmented的训练样本,被...
  • jcx1314
  • jcx1314
  • 2016年12月21日 10:46
  • 535

决策树,随机森林,boost小结

决策树(CvDTree)是最基础的,是CvForestTree和CvBoostTree的父类。 决策树的生成,一般资料中都是基于ID3算法(熵增益),即ID3算法在每个节点分裂时,选择使gain...
  • SMF0504
  • SMF0504
  • 2016年08月27日 14:35
  • 804

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

转自:http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html 机器学习中的算法(1)-决策...

看懂论文的机器学习基本知识(五)--随机森林、决策树

由于TLD算法中采用的是随机森林分类器,这里将自己找的资料汇下总,以便日后查找所需。        随机森林分类的过程就是对于每个随机产生的决策树分类器,输入特征向量,森林中每棵决策树对样本进行分类,...
  • roypi
  • roypi
  • 2013年12月29日 20:58
  • 5647

决策树、随机森林简单原理和实现

本文申明:此文为学习记录过程,中间多处引用大师讲义和内容 一:概念 决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有...

决策树模型组合之随机森林(Random Forest)

基础知识 [关于决策树的基础知识参考:http://blog.csdn.net/holybin/article/details/22914417] 在机器学习中,随机森林由许多的决策树组成,因为...

转:机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT 版权声明:     本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被...
  • bhj5787
  • bhj5787
  • 2013年09月09日 15:52
  • 746

30分钟学会用scikit-learn的基本回归方法(线性、决策树、SVM、KNN)和集成方法(随机森林,Adaboost和GBRT)

真注:本教程是本人尝试使用scikit-learn的一些经验,scikit-learn帧的超级容易上手,简单实用。30分钟学会用调用基本的回归方法和集成方法应该是够了。 本文主要参考了scikit-...

决策树与随机森林相关概念

决策树所谓的决策树, 就是一种树形结构。其内部每个节点代表一个特征的测试,每个一个分支代表测试的输出,而每个叶子节点则代表一种类别。 而随机森林,就是指的一群决策树所组成的一个森林。当一个新的样本需...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:对决策树,随机森林的初步认识
举报原因:
原因补充:

(最多只允许输入30个字)