初探NO.2—离散分类问题&决策树的启示

本文深入探讨了决策树在离散分类问题中的应用,从相亲问题出发,阐述了决策树如何通过特征选择(如信息增益)来构建分类模型。介绍了熵、条件熵和信息增益的概念,并简要说明了ID3决策树算法流程。同时,讨论了决策树防止过拟合的策略,如阈值设定,并预告了后续将涉及的随机森林和boosting技术。
摘要由CSDN通过智能技术生成

  今天梳理决策树。说起这一个模型真的也算是一个经典的模型,还好也不算太难。索性把我理解算法的精髓和编码实现都交代一下吧。

  在现实生活中有些事情是可以或者方便量化的,比如上一篇逻辑回归中我们给每一道菜进行打分然后给这个菜一个评判,看看它是否好吃。然而有些事情可能量化起来不是这么容易,举一个例子,前两天Leo的同学说她被家里强迫去相亲,后来她说对方男孩还是挺好的。这个时候Leo就开始想相亲这种事,仁者见仁智者见智,每一个人评判的法则肯定不太一样,以我们世俗的眼光中,一般“高帅富”无疑是受女孩欢迎的,但是什么程度属于“高”,什么程度属于“帅”这个我们只能给出模糊的答案,那么这个模糊的答案如何将它进行计算,或者以此条件下的结果可不可信呢?决策树给了我们答案。

 

  其实说到决策树,我比较清晰的还是用于作为分类。我们还是以女孩相亲作为一个例子,接着我们把相亲对象的条件分成“身高”,“长相”,“富有”三个部分。每一个男孩的都会被这三个指标去衡量,然后女孩根据男孩这些条件去评判这个人我见还是不见。这个结构确定下来应该是我们数据结构中的树状结构,例如下图:

                                              

                                             PS:哈哈哈~这只是一个猜测,现实中说不定还是有真爱的~


  那么言归正传,这个决策树看起来挺好的那么它是如何学习出来的?这就需要我们再细细探究一番。通过观察会其实我们会发现这个树学习的关键是找出它的各个节点之间的排列次序,既然所有的叶子节点都是判断的结果,那么哪一个特征需要我们拿来作为根节点,哪一个会成为它子节点......其实决策树的精髓也在于此,只要我们知道怎么去给特征排序,那么问题基本就解决了。

 

  那么这个顺序我们怎么排呢?在说比较专业名词之前我们先大体猜一下这个怎么分,我们一般人想这个问题大体会想找出特征区分最鲜明的分,比如上图中“富有”的人都会被约,那么我们的根节点就安排给“富有程度”好了。


   其实这个思路基本上也就是特征选择的思路。在说怎么分之前先介绍几个概念。

PS:摘抄自《统计学习方法》

第一个概念叫做熵:熵(entropy)是表示随机变量不确定性的度量。假设X是一个具有取有限个值得离散随机变量,其概率分布为:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值