机器学习算法经验

最新推荐文章于 2024-07-18 15:30:34 发布

lanyuelvyun

最新推荐文章于 2024-07-18 15:30:34 发布

阅读量959

点赞数

分类专栏：机器学习 # 决策树

本文链接：https://blog.csdn.net/lanyuelvyun/article/details/82118618

版权

本文探讨了机器学习中的特征值归一化、正负样本比例设置、模型充分学习的判断标准、样本增加对模型的影响以及过拟合等问题。还涉及了模型评价指标的选择，如在不均衡数据集上为何不使用accuracy，以及在信贷模型评估中的注意事项。文章还分享了决策树和lightgbm算法的经验，包括参数调整和特征重要性的理解。

摘要由CSDN通过智能技术生成

以下是随笔，乱写的，忽略~

1、特征值归一化

目的：为了让所有的特征的值，具有相同的量纲
使用场景：当算法在计算的过程中使用到了特征的值的时候
拿LR举例，用到了梯度下降算法。在计算梯度的时候，使用到了特征的值。如果特征值不进行归一化处理，那么在同一个学习率的情况下，拥有较小特征值的特征就学习的不好（因为此时的学习率对于该特征值来说大了，不合适），为了避免这种情况，学习率就要设置的非常小，学习率小，这就会导致算法学习的非常慢。
ps：基于树的方法不需要进行特征值的归一化，因为整个树模型算法在计算（分裂）的过程中没有使用特征的值，使用的是该特征具有该值的概率，用这个概率来计算增益，从而进行分裂。

2、二分类问题，如果其中一类样本很少的情况下（假如负样本很少），正负样本比例设置成多少，算法才能充分学习较少类样本的信息（也就是充分学习负样本的信息？）

要观察算法的badcases。
如果有一批样本，样本有特征和标签，分成train集和test集，两个集合正负样本比例一致，并且都是负样本较少。然后有一个机器学习算法，现在用这个算法去学习train集的样本，并且给test集的样本打分。因为test集样本的标签已知，所以我们能知道哪些test集样本打分正确，哪些打分错误。
如果test集中，大部分的负样本都被判断成了正样本，说明算法对于负样本学习的不充分，解决办法：需要增加负样本的数量；开发新的特征；
如果test集中，大部分的负样本都被判断成了负样本，判断正确，说明算法对于负样本学习的充分了。

3、二分类问题，什么时候能说明一个算法充分学习了正负样本？

先看test集与train集的AUC，相差在0.5%~1%以内，说明该算法训练出来的模型的泛化能力比较好了；
看badcases，同问题2

4、二分类问题，在算法充分学习了正负样本的情况下，增加样本，无论是哪类样本，改变的是模型的bias，此时已经不会改变模型的variance了，因为模型已经学习的很好了

5、模型过拟合

我们说一个模型过拟合，是说一个模型的variance大；而当一个模型bias大，但是variance比较小的时候，我们认为这个模型是比较稳定的，模型学习的很好，就是会有一些偏移，这个偏移我们通过平移之类的操作就可以消除，所以这种情况，我们不认为是过拟合。

6、模型评价指标，为什么不用accuracy？不同的业务场景下用什么样的评价指标？

衡量一个模型好坏，不用accuracy，accuracy不准确，因为不同的阈值，会有不同的accuracy。
不同的业务场景，对模型的评价指标是不一样的，以二分类问题为例不同的业务场景，对模型的评价指标是不一样的，以二分类问题为例。
场景一：很在意模型算法对两类样本的区分/排序能力。比如说一般的分类问题，信用评分模型就属于这一类。此时模型评价指标用AUC（area under curve）：ROC曲线与x轴的面积。相对于accuracy而言，AUC衡量的是这个模型在所有阈值下的整体的性能，而不是单个阈值下。场景一：很在意模型算法对两类样本的区分/排序能力。比如说一般的分类问题，信用评分模型就属于这一类。此时模型评价指标用AUC（area under curve）：ROC曲线与x轴的面积。相对于accuracy而言，AUC衡量的是这个模型在所有阈值下的整体的性能，而不是单个阈值下。
ROC曲线纵轴 TPR = TP / [ TP + FN] ，所有正例中正例分对的概率横轴 FPR = FP / [ FP + TN] ，所有负例中负例分错的概率 AUC是ROC曲线下的面积，衡量的是模型对于不同类样本的分类/排序能力，通常tpr越高，fpr越低，分类器效果越好，所以ROC曲线越往左上凸越好。AUC描绘了分类器在“正例分对”和“负例分错”间的trade-off，两类样本都考虑到了，不希望过于适合单个类。
场景二：在样本非常不均衡的情况下，很在意是不是尽可能多的将需要的那一类样本（个数少的那一类）检索出来，同时还要保证另一类的误检率比较低。**这种一般属于检索问题，反欺诈场景就属于这一类。此时模型评价指标用PR曲线
PR曲线纵轴 precision（查准率/准确率） TP / (TP + FP) 被预测为正例的样本中，真正的正例所占的比例横轴 recall（查全率/灵敏度/召回率） TP / [ TP + FN] 在所有正例样本中，被预测为正并且真的是正例的样本所占的比例 precision和recall是互相影响的，理想情况下两者都高是最好，但是一般情况下二者是成反比的。 PR曲线是对正样本（labe=1）的查全率和查准率之间的一个trade_off
为什么场景二不适合用AUC？因为在样本非常不均衡的情况下，就算模型对少类的区分能力不怎么好，也会有很高的AUC，因为另一类的数量太大，另一类样本有很多分类正确的，这就会使整体的AUC很高。比如说在信用模型（好坏比=10：1）的时候，经验认为0.8的AUC就说明模型对于好坏用户的区分能力很好，但是放在反欺诈场景（好坏比=400：1），0.8的AUC就不能说明这个模型好用。