全文阅读:https://www.lianxh.cn/news/b057fea5adb6a.html
目录
编者按: 机器学习的应用越来越广泛。在此前的推文中,我们对机器学习算法及 Stata 应用做了一些基本的介绍,详见:Stata:随机森林算法简介与实现。本文作进一步拓展,并从其他角度列举一些实操范例。
1.决策树相关理论
1.1 问题背景
现代社会中,大数据的应用以及数据挖掘的迅速发展使得人们越来越重视如何高效地处理数据这一问题。有人认为,可以基于人们掌握的各方面信息,对决策空间进行一定的划分,一块空间内的样本就属于一个特定的类别,而这就是决策树思想最早的产生。在 2006 年 12 月的 ICDM 会议上,作为决策树算法之一的 C4.5 算法被评为数据挖掘领域的十大经典算法之首。
决策树的典型算法有 ID3,C4.5,CART 以及 CHAID 等。本文重点介绍 CHAID 分类方法以及由其衍生出的 CHAIDFOREST 。