机器学习算法经验

本文探讨了机器学习中的特征值归一化、正负样本比例设置、模型充分学习的判断标准、样本增加对模型的影响以及过拟合等问题。还涉及了模型评价指标的选择,如在不均衡数据集上为何不使用accuracy,以及在信贷模型评估中的注意事项。文章还分享了决策树和lightgbm算法的经验,包括参数调整和特征重要性的理解。
摘要由CSDN通过智能技术生成

以下是随笔,乱写的,忽略~

1、特征值归一化

  • 目的:为了让所有的特征的值,具有相同的量纲
  • 使用场景:当算法在计算的过程中使用到了特征的值的时候
  • 拿LR举例,用到了梯度下降算法。在计算梯度的时候,使用到了特征的值。如果特征值不进行归一化处理,那么在同一个学习率的情况下,拥有较小特征值的特征就学习的不好(因为此时的学习率对于该特征值来说大了,不合适),为了避免这种情况,学习率就要设置的非常小,学习率小,这就会导致算法学习的非常慢。
  • ps:基于树的方法不需要进行特征值的归一化,因为整个树模型算法在计算(分裂)的过程中没有使用特征的值,使用的是该特征具有该值的概率,用这个概率来计算增益,从而进行分裂。

2、二分类问题,如果其中一类样本很少的情况下(假如负样本很少),正负样本比例设置成多少,算法才能充分学习较少类样本的信息(也就是充分学习负样本的信息?)

  • 要观察算法的badcases。
  • 如果有一批样本,样本有特征和标签,分成train集和test集,两个集合正负样本比例一致,并且都是负样本较少。然后有一个机器学习算法,现在用这个算法去学习train集的样本,并且给test集的样本打分。因为test集样本的标签已知,所以我们能知道哪些test集样本打分正确,哪些打分错误。
  • 如果test集中,大部分的负样本都被判断成了正样本,说明算法对于负样本学习的不充分,解决办法:需要增加负样本的数量;开发新的特征;
  • 如果test集中,大部分的负样本都被判断成了负样本,判断正确,说明算法对于负样本学习的充分了。

3、二分类问题,什么时候能说明一个算法充分学习了正负样本?

  • 先看test集与train集的AUC,相差在0.5%~1%以内,说明该算法训练出来的模型的泛化能力比较好了;
  • 看badcases,同问题2

4、二分类问题,在算法充分学习了正负样本的情况下,增加样本,无论是哪类样本,改变的是模型的bias,此时已经不会改变模型的variance了,因为模型已经学习的很好了

5、模型过拟合

  • 我们说一个模型过拟合,是说一个模型的variance大;而当一个模型bias大,但是variance比较小的时候,我们认为这个模型是比较稳定的,模型学习的很好,就是会有一些偏移,这个偏移我们通过平移之类的操作就可以消除,所以这种情况,我们不认为是过拟合。

6、模型评价指标,为什么不用accuracy?不同的业务场景下用什么样的评价指标?

  1. 衡量一个模型好坏,不用accuracy,accuracy不准确,因为不同的阈值,会有不同的accuracy。
  2. 不同的业务场景,对模型的评价指标是不一样的,以二分类问题为例不同的业务场景,对模型的评价指标是不一样的,以二分类问题为例。
  3. 场景一:很在意模型算法对两类样本的区分/排序能力。比如说一般的分类问题,信用评分模型就属于这一类。此时模型评价指标用AUC(area under curve):ROC曲线与x轴的面积。相对于accuracy而言,AUC衡量的是这个模型在所有阈值下的整体的性能,而不是单个阈值下。场景一:很在意模型算法对两类样本的区分/排序能力。比如说一般的分类问题,信用评分模型就属于这一类。此时模型评价指标用AUC(area under curve):ROC曲线与x轴的面积。相对于accuracy而言,AUC衡量的是这个模型在所有阈值下的整体的性能,而不是单个阈值下。
    ROC曲线 纵轴 TPR = TP / [ TP + FN] ,所有正例中正例分对的概率 横轴 FPR = FP / [ FP + TN] ,所有负例中负例分错的概率 AUC是ROC曲线下的面积,衡量的是模型对于不同类样本的分类/排序能力,通常tpr越高,fpr越低,分类器效果越好,所以ROC曲线越往左上凸越好。AUC描绘了分类器在“正例分对”和“负例分错”间的trade-off,两类样本都考虑到了,不希望过于适合单个类。
  4. 场景二:在样本非常不均衡的情况下,很在意是不是尽可能多的将需要的那一类样本(个数少的那一类)检索出来,同时还要保证另一类的误检率比较低。**这种一般属于检索问题,反欺诈场景就属于这一类。此时模型评价指标用PR曲线
    PR曲线 纵轴 precision(查准率/准确率) TP / (TP + FP) 被预测为正例的样本中,真正的正例所占的比例 横轴 recall(查全率/灵敏度/召回率) TP / [ TP + FN] 在所有正例样本中,被预测为正并且真的是正例的样本所占的比例 precision和recall是互相影响的,理想情况下两者都高是最好,但是一般情况下二者是成反比的。 PR曲线是对正样本(labe=1)的查全率和查准率之间的一个trade_off
  5. 为什么场景二不适合用AUC?因为在样本非常不均衡的情况下,就算模型对少类的区分能力不怎么好,也会有很高的AUC,因为另一类的数量太大,另一类样本有很多分类正确的,这就会使整体的AUC很高。比如说在信用模型(好坏比=10:1)的时候,经验认为0.8的AUC就说明模型对于好坏用户的区分能力很好,但是放在反欺诈场景(好坏比=400:1),0.8的AUC就不能说明这个模型好用。

7、决策树

  • 选择哪一个特征来进行最初的分类,能够影响决策树的分类效率吗?答案是肯定的,特征的选取顺序是能够影响决策树的构建,进而影响分类效率。

8、lightgbm算法的经验

  1. AUC要在[0.75,0.85]之间,<0.75说明模型效果不好,有可能是特征提取的不对,与业务(根据业务性质来定标签)不怎么相关;>.85,过拟合,有可能引入了未来特征,引入了label,需要检查一下。

  2. train集的AUC与test集的AUC相差最好不要超过5%,否则就可能是

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值