数据挖掘学习小组:Task4.建模调参

最新推荐文章于 2024-09-26 16:30:55 发布

Gan1aa

最新推荐文章于 2024-09-26 16:30:55 发布

阅读量413

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/Gan1aa/article/details/105236907

版权

Task4.建模调参

决策树算法原理（ID3, C4.5, CART分类树, CART回归树）

ID3
1. 1970年昆兰找到了用信息论中的熵来度量决策树的决策选择过程，昆兰把这个算法叫做ID3。
2. 熵度量了事物的不确定性，越不确定的事物，熵就越大。
3. ID3算法思想：用信息增益最大的特征来建立决策树的当前节点。
4. 决策树ID3算法的不足
  - ID3没考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。
  - ID3用信息增益作为标准容易偏向取值较多的特征。然而在相同条件下，取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值，各为1/2，另一个变量为3个值，各为1/3，其实他们都是完全不确定的变量，但是取3个值比取2个值的信息增益大。如何校正这个问题？
  - ID3算法没考虑缺失值问题。
  - 没考虑过拟合问题。
C4.5
1. 决策树C4.5算法对ID3的改进
  - 对不能处理连续值特征，C4.5思路：将连续的特征离散化。
    1. 将m个连续样本从小到大排列。(比如 m 个样本的连续特征A有 m 个，从小到大排列 a1，a2，…am)
    2. 取相邻两样本值的平均数，会得m-1个划分点。(其中第i个划分点Ti表示为：)
    3. 对于这m-1个点，分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。(比如取到的增益最大的点为at，则小于at的值为类别1，大于at的值为类别2，这样就做到了连续特征的离散化。注意的是，与离散属性不同，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。)
    4. 用信息增益比选择最佳划分。
    **注意：**选择连续特征的分类点采用信息增益这个指标，因为若采用增益比，影响分裂点信息度量准确性，若某分界点恰好将连续特征分成数目相等的两部分时其抑制作用最大，而选择属性的时候才使用增益比，这个指标能选择出最佳分类特征。
  - 对于信息增益作为标准容易偏向于取值较多特征的问题。引入一个信息增益比 IR(Y, X)，它是信息增益与特征熵（也称分裂信息）的比。表达式：
    
    其中D为样本特征输出的集合，A为样本特征，对于特征熵 HA(D)，表达式：
    
    其中n为特征A的类别数，|Di|为特征A的第i个取值对应的样本个数。|D|为样本个数。
    
    特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。
  - 对于缺失值处理的问题，主要需要解决的是两个问题，一是在样本某些特征缺失的情况下选择划分的属性，二是选定了划分属性，对于在该属性上缺失特征的样本的处理。
    
    对于第一个子问题，对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分，对每个样本设置一个权重（初始可以都为1），然后划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本加权后所占加权总样本的比例。
    
    对于第二个子问题，可以将缺失特征的样本同时划分入所有的子节点，不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1，特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1，A2，A3。对应权重调节为2/9,3/9, 4/9。
2. 决策树C4.5算法的不足与改进
  - 决策树算法非常容易过拟合，因此对于生成的决策树要进行剪枝。C4.5的剪枝方法有优化的空间。思路主要是两种，一种是预剪枝，即在生成决策树的时候就决定是否剪枝。另一个是后剪枝，即先生成决策树，再通过交叉验证来剪枝。后面在下篇讲CART树的时候我们会专门讲决策树的减枝思路，主要采用的是后剪枝加上交叉验证选择最合适的决策树。
  - C4.5生成的是多叉树，在计算机中二叉树模型会比多叉树运算效率高。多叉树改二叉树，可以提高效率。
  - C4.5只能用于分类。
  - C4.5由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化减少运算强度但又不牺牲太多准确性的话，因此用基尼系数代替熵模型。
CART分类树

上面刚刚提了C4.5的不足，比如模型是用较为复杂的熵来度量，使用了相对较为复杂的多叉树，只能处理分类不能处理回归。对这些问题，CART(Classification And Regression Tree)做了改进，可以处理分类，也可以处理回归。
1. CART分类树算法的最优特征选择方法
  
  ID3中使用了信息增益选择特征，增益大优先选择。C4.5中，采用信息增益比选择特征，减少因特征值多导致信息增益大的问题。CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。这和信息增益（比）相反。
  
  假设K个类别，第k个类别的概率为pk，概率分布的基尼系数表达式：
  
  如果是二分类问题，第一个样本输出概率为p，概率分布的基尼系数表达式为：
  
  对于样本D，个数为|D|，假设K个类别，第k个类别的数量为|Ck|，则样本D的基尼系数表达式：
  
  对于样本D，个数为|D|，根据特征A的某个值a，把D分成|D1|和|D2|，则在特征A的条件下，样本D的基尼系数表达式为：
  
  比较基尼系数和熵模型的表达式，二次运算比对数简单很多。尤其是二分类问题，更加简单。
  
  和熵模型的度量方式比，基尼系数对应的误差有多大呢？对于二类分类，基尼系数和熵之半的曲线如下：
  
  基尼系数和熵之半的曲线非常接近，仅在45度角附近误差稍大。因此，基尼系数可以做为熵模型的一个近似替代。
  
  CART分类树算法每次仅对某个特征的值进行二分，而不是多分，这样CART分类树算法建立起来的是二叉树，而不是多叉树。
CART回归树

CART回归树模型表达式：

其中，数据空间被划分为R1~Rm单元，每个单元有一个固定的输出值Cm。这样可以计算模型输出值与真实值的误差：

希望每个单元上的Cm，可以使平方误差最小化，易知当Cm为相应单元上所有实际值的均值时，达到最优：

如何生成这些被划分的单元？

下面是一组数据：

选择变量xj为切分变量，它的取值s为切分点，那么得到两个区域：

当 j 和 s 固定时，我们要找到两个区域的代表值C1、C2使各自区间上的平方差最小，

已经知道C1、C2为区间上的平均，

那么对固定的 j 只需要找到最优的 s，
然后通过遍历所有的变量，我们可以找到最优的 j，
这样我们就可以得到最优对（j，s），并得到两个区间。

上述过程表示的算法步骤：

即：
1. 1. 考虑数据集 D 上的所有特征 j，遍历每一个特征下所有可能的取值或者切分点 s，将数据集 D 划分成两部分 D1 和 D2。
  2. 分别计算上述两个子集的平方误差和，选择最小的平方误差对应的特征与分割点，生成两个子节点。
  3. 对上述两个子节点递归调用步骤1、2,直到满足停止条件。

小雨讲的线性模型

进行简单建模之后查看训练的线性回归模型的截距(intercept) 与权重(coef)

绘制特征v_9的值与标签的散点图，图片发现模型的预测结果（蓝色点）与真实标签（黑色点）的分布差异较大，且部分预测值出现了小于0的情况，说明我们的模型存在一些问题

通过作图我们发现数据的标签（price）呈现长尾分布，不利于我们的建模预测。原因是很多模型都假设数据误差项符合正态分布，而长尾分布的数据违背了这一假设。参考博客：https://blog.csdn.net/Noob_daniel/article/details/76087829
对y进行log(x+1) 变换，使标签贴近于正态分布

重新训练模型之后再次进行可视化，发现预测结果与真实值较为接近，且未出现异常状况
交叉验证：

对标签进行log(x+1)变换之后的Error明显低于不处理标签的情况。
模拟真实业务情况:

但在事实上，由于我们并不具有预知未来的能力，五折交叉验证在某些与时间相关的数据集上反而反映了不真实的情况。通过2018年的二手车价格预测2017年的二手车价格，这显然是不合理的，因此我们还可以**采用时间顺序对数据集进行分隔。**在本例中，我们选用靠前时间的4/5样本当作训练集，靠后时间的1/5当作验证集，最终结果与五折交叉验证差距不大。
线性模型 & 嵌入式特征选择

在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明显的分别。而嵌入式特征选择在学习器训练过程中自动地进行特征选择。嵌入式选择最常用的是L1正则化与L2正则化。在对线性回归模型加入两种正则化方法后，他们分别变成了Lasso回归与岭回归。
- 普通线性回归：
- 加入L1正则化的Lasso Regression
  
  L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。如下图，我们发现power与userd_time特征非常重要。
- 加入L2正则化的Ridge Regression
  
  L2正则化在拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』

模型调参

三种常用的调参方法如下：

贪心算法 https://www.jianshu.com/p/ab89df9759c8
网格调参 https://blog.csdn.net/weixin_43172660/article/details/83032029
贝叶斯调参 https://blog.csdn.net/linxid/article/details/81189154

后期待补充

关于Datawhale：

Datawhale是一个专注于数据科学与AI领域的开源组织，汇集了众多领域院校和知名企业的优秀学习者，聚合了一群有开源精神和探索精神的团队成员。Datawhale 以“for the learner，和学习者一起成长”为愿景，鼓励真实地展现自我、开放包容、互信互助、敢于试错和勇于担当。同时 Datawhale 用开源的理念去探索开源内容、开源学习和开源方案，赋能人才培养，助力人才成长，建立起人与人，人与知识，人与企业和人与未来的联结。

本次数据挖掘路径学习，专题知识将在天池分享，详情可关注Datawhale：