自动化模型选择上与树模型基础

最新推荐文章于 2024-03-14 17:13:30 发布

每天净瞎搞

最新推荐文章于 2024-03-14 17:13:30 发布

阅读量249

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u011703187/article/details/100904907

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Q:什么是模型选择？
模型选择即选择正则化参数的大小和多项式的次数

Q:模型选择的两个步骤？
1.选择一个模型
2.设定它的参数

Q:选择最好的模型实际上选择模型的什么指标？
实际上是确定哪个模型可以在偏差和方差之间达到最优

Q:偏差描述的是什么？
偏差描述的是模型预测结果与真实结果的差距（准确度）

Q:方差描述的是什么?
方差描述的是模型预测结果的波动范围（稳定性）

Q:树模型和规则模型的优点是什么？
1.生成的条件极富解释力，并且易于实现。
2.能有效处理各种类型的预测变量（如稀疏、偏态、连续、分类），而不需要对这些变量事先进行预处理。
3.不需要用户事先指定自变量和因变量之间的关系，回归模型是需要的？？？？？？
4.可以有效处理缺失值，并隐式地进行特征选择。

Q:单一的树或规则建立的模型的有哪两条缺点？
1.模型的不稳定性。
2.次优的预测能力。

Q:单一树模型和规则模型的不稳定性是为什么？
因为数据中的微小变动可能会引起树或规则结构的巨大变化

Q:单一树模型和规则模型的次优的预测能力是为什么？
因为模型定义了一系列的矩阵区域，它们得到的结果具有一定的同质性。如果响应变量与预测变量之间的关系不能充分地通过矩形子空间来进行表达，那么树模型和规则模型将产生比其它模型更大的预测误差。

Q:克服单一树模型的缺点的方案是什么？
使用集成模型

Q:什么是分类决策树？
分类决策树是一种基于特征对实例进行分类的属性结构。

Q:决策树由哪两个部件组成？
结点(node)，有向边（directed edge）

Q:决策树的结点有哪两种类型，并分别代表什么？
内部结点（internal node）：一个特征或属性
叶结点（leaf node）：一个类

Q:如何用决策树进行分类：
从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；
这时，每一个子结点对应着该特征的一个取值。
如此递归地对实例进行测试和分配，直至达到叶结点。
最后将实例分到叶结点的类。

Q:决策树如何转换成if-then规则?
由决策树的根结点到叶结点的每一条路径构建一条规则；路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。

Q:决策树的构建过程？
1.构建根结点，讲所有训练数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。
2.如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去。
3.如果还有子集不能被基本正确分类，那么久对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点。
4.如此递归地进行下去，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止。
5.最后每个子集都被分到叶结点上，即都有了明确的类。这就生成了一棵决策树。

Q:决策树学习算法的3个过程是？
特征选择、决策树的生成、决策树的剪枝

Q:决策树中说一个特征没有分类能力的表现是这个特征？
如果用该特征进行分类的结果与随机分类的结果没有很大差别。

Q:熵是度量什么？
熵（entropy）是表示随机变量不确定性的度量，熵取值越大，随机变量不确定性越大，熵为0时，随机变量完全没有不确定性。

Q:熵的定义是什么？
设X是一个取有限个值的离散随机变量，其概率分布为
$x_i) = p_i, i = 1,2,\ldots,n$
则随机变量X的熵定义为
$-\sum^n_{i=1}p_i\log p_i \tag{5.1}$
在式(5.1)中，若 $p_i = 0$ ，则定义 $\log 0 = 0$ 。通常式（5.1）中的对数以2或e为底。这时熵的单位分别称作比特(bit)或纳特(nat)。由定义可知，熵只依赖于X的分布，而与X的取值无关，所以也可将X的熵记作H§，即
$-\sum^n_{i=1}p_i\log p_i \tag{5.2}$
熵越大，随机变量的不确定性就越大。