对决策树,随机森林的初步认识

原创 2016年10月10日 11:27:01
 决策树是常用的分类方法,其方法也非常的直观。每一次从父亲到孩子是对某个特征的分裂,对于树中的叶子,要么是已经为纯净的了(所有样本都属于同一类),或者没有特征可以分裂。对于后一种情况的出现,可以考虑将划分为该点样本属于最多的类。对于一个分类问题可以构造出很多很多的决策树,而对于一个要通过某个确定的决策树进行分类的实例,就是从根节点开始,依据分裂出的条件一直走到某个叶子节点而判定其分类。所以判定一棵决策树的标准是看其深度越低越好。为了达到这个目的,通常对分裂时选择哪个特征进行分裂来做文章,希望每次的分裂后出来的点纯度越高越好(一个直观的例子,若根据某个特征分裂出的每个点各自都属于同一个类别,该节点分裂后其子节点就都不用继续分裂了)。比如现在一款游戏的运行条件有各种各样的硬件软件需求,如果系统不是win10就无法运行,而其他的硬件条件需要相互的组合才能判断是否可以运行,那么显然根节点往下就对系统这个特征进行分裂是最优的,而不是做了一堆硬件的分类后再对系统这个特征进行分裂。为了得到理想的分裂方法,衍生出了各种概念和算法,比如信息熵,信息增益,ID3,C4.5等。同时,决策树容易出现过拟合(overfitting)的问题,可以通过剪枝的方式来缓和。


 设计出一棵牛逼的决策树,样本进行很好的分类是比较困难的。这时就可以使用随机森林的了,其本质就是弄一堆并不是那么厉害的决策树,而最终的分类结果由投票来决定。那么如何构造这些决策树?假设全量的训练集为M个样本,N个特征,对于每颗决策树Ti,随机选取M个样本中的Mi个样本,再随机选择N个特征中的Ni个特征,作为决策树的训练样本,再进行简单的训练就好。注意这里的随机选取是用有放回的选取,即有可能存在决策树选取的训练样本及其特征是完全相同的,但概率非常的小。奇妙的是如此得到的分类结果往往是较为理想的,而且不容易出现过拟合情况。


 以上只是自己感性的认识,而要深入理解是有大量的数学和证明作为基础的。
版权声明:本文为博主原创文章,未经博主允许不得转载。

HTML初步认识

HTML初步认识本篇博客给大家带来html最基础的东西,也就是初步认识html,打算从以下几个方面给大家介绍: 认识什么是纯文本文件txt HTML是负责描述文档语义的语言 HTML骨架和基本语法 可...
  • u010624986
  • u010624986
  • 2016年12月16日 23:46
  • 551

对C语言的初步认识

今天开启了C语言学习的第一节课。   一开始问了我们在现有的开发里有哪些语言: Java,c++,php,c#,.Net,python,shell,oc(ios系统用的语言) 面向对象的语言:...
  • TRLblog
  • TRLblog
  • 2016年11月19日 22:16
  • 273

对JavaEE的简单认识

Java中存在各种各样的API, 也许正是这些API的制定使得Java能够像今天这样繁荣. API代表了标准, 开源则使各种API的实现百花齐放. 应该说, JavaEE是一系列为解决在企业应用开发...
  • wyc09
  • wyc09
  • 2010年01月20日 22:09
  • 565

机器学习之决策树和随机森林及代码示例

一、决策树决策树学习是机器学习中一类常用的算法。在决策树中,根节点包含样本全集。每个非叶子节点表示一种对样本的分割,通常对应一个划分属性,其将样本分散到不同的子节点中。每个叶子节点对应于决策的结果。因...
  • cxmscb
  • cxmscb
  • 2016年12月09日 16:43
  • 3702

机器学习面试准备之三、决策树与随机森林

机器学习面试准备之三、决策树与随机森林
  • sunpeng19960715
  • sunpeng19960715
  • 2017年01月31日 08:49
  • 3871

决策树类的机器学习算法——决策树、Bagging、随机森林、Boosting、AdaBoost、GBDT、XGBoost

1.决策树  决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。...
  • sangyongjia
  • sangyongjia
  • 2016年11月25日 14:39
  • 4316

决策树与随机森林

决策树与随机森林本篇博客将重新给出对决策树与随机森林的认识。主要分析决策树的学习算法:信息增益和ID3、C4.5、CART树,然后给出随机森林。 信息熵(熵,联合熵,条件熵,互信息) 信息增益 ID3...
  • u010161630
  • u010161630
  • 2016年06月17日 14:09
  • 3042

【机器学习详解】决策树与随机森林算法

决策树决策树模型是一种树形结构,基于特征对实例进行分类或回归的过程。即根据某个特征把数据分划分到若干个子区域(子树),再对子区域递归划分,直到满足某个条件则停止划分并作为叶子节点,不满足条件则继续递归...
  • luoshixian099
  • luoshixian099
  • 2016年07月03日 21:16
  • 4650

看懂论文的机器学习基本知识(五)--随机森林、决策树

由于TLD算法中采用的是随机森林分类器,这里将自己找的资料汇下总,以便日后查找所需。        随机森林分类的过程就是对于每个随机产生的决策树分类器,输入特征向量,森林中每棵决策树对样本进行分类,...
  • roypi
  • roypi
  • 2013年12月29日 20:58
  • 5982

蓝牙的初步认识

一、.Bluetooth是目前使用最广泛的无线通讯协议,主要针对短距离的设备,基本上十米以内,而且是中间无阻碍的才能达到十米,如果中间有阻碍可能不到十米。 二、Bluetooth相关 API   ...
  • fang0521
  • fang0521
  • 2016年09月18日 10:38
  • 110
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:对决策树,随机森林的初步认识
举报原因:
原因补充:

(最多只允许输入30个字)