我整理了《BAT常见机器学习算法面试题1000题》,供大家学习和参考。资源获取方式:
(1)打开v搜索:1号程序员,并关注。
(2)在对话框中输入:E001,即可获取资源地址。
决策树是监督学习算法中最强大的工具之一,用于分类和回归任务。它构建了一个类似流程图的树状结构,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,每个叶节点(终端节点)包含一个类别标签。它通过递归地根据属性值将训练数据分割成子集来构建,直到满足停止标准,例如树的最大深度或分割节点所需的最小样本数。
在训练过程中,决策树算法根据诸如熵或基尼不纯度等度量标准选择最佳属性来分割数据,这些标准用于衡量子集中的不纯度或随机性水平。目标是找到在分割后最大化信息增益或减少不纯度的属性。
决策树算法中常用的术语
根节点(Root Node):树中的顶层节点,代表整个数据集。它是决策过程的起点。
决策节点/内部节点(Decision/Internal Node):代表关于输入特征的选择的节点。内部节点的分支连接到叶节点或其他内部节点。
叶节点/终端节点(Leaf/Terminal Node):没有任何子节点的节点,表示一个类别标签或数值。
分裂(Splitting):使用分裂准则和选定的特征将一个节点分裂成两个或更多子节点的过程。
分支/子树(Branch/Sub-Tree):决策树的一个部分,从内部节点开始并以叶节点结束。
父节点(Parent Node):分裂成一个或多个子节点的节点。
子节点(Child Node):在父节点分裂时产生的节点。
不纯度(Impurity):对数据子集中目标变量同质性的度量。它指的是一组示例中的随机性或不确定性程度。在决策树中,Gini指数和熵是用于分类任务的两种常用不纯度度量方式。
方差(Variance):方差衡量了在数据集的不同样本中预测和目标变量的变化程度。它用于决策树中的回归问题。均方误差、平均绝对误差、friedman_mse或半Poisson偏差等用于衡量回归任务中的方差。
信息增益(Information Gain):信息增益是通过在决策树中基于特定特征分裂数据集而实现的不纯度减小的度量。分裂准则由提供最大信息增益的特征确定,它用于确定每个树节点上要分裂的最具信息的特征,以创建纯净的子集。
剪枝(Pruning):从树中移除不提供额外信息或导致过拟合的分支的过程。